Sie sind nicht angemeldet.

1

17.02.2014, 17:10

Server nach Raid1 Problemen mit kaputten init Scripten!?

Ich habe einen Hertzner root Server. Heute gab es ein Problem mit dem Server wobei der Server einfach anfing rumzuspinnen, es gingen einfach einige Programme nicht mehr und die Netzwerkkarte /etc.init.d/net.eth0 ging nicht mehr zu starten.
Dann habe Ich festgestellt, dass eine Festplatte im mdadm RAID1, dauernd Read errors ins Log schrieb. Obwohl mdadm noch keinen Fehler vermerkte, habe ich die Platte dann mal aus dem Raid rausgeworfen und von Hetzner austauschen lassen. Das hat auch soweit geklappt.

Nur das Problem was ich mit dem Server habe besteht fort.

Quellcode

1
2
3
4
5
6
/etc/init.d/net.eth0 restart
 * Bringing up interface eth0
start:35: command not found: _exists
 *   ERROR: interface eth0 does not exist
 *   Ensure that you have loaded the correct kernel module for your hardware
 * ERROR: net.eth0 failed to start


Komischerweise kann ich aber über eben diese Netzwehrkarte per SSH auf den Server zugreifen

Quellcode

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
ifconfig 
eth0  	Protokoll:Ethernet  Hardware Adresse c8:60:00:54:b9:ff  
      	inet Adresse:.1.9.13.35  Bcast:5.9.13.62  Maske:255.255.255.224
      	inet6 Adresse: fe80::ca60:ff:fe54:b9ff/64 Gültigkeitsbereich:Verbindung
      	UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
      	RX packets:1062490 errors:0 dropped:0 overruns:0 frame:0
      	TX packets:172973 errors:0 dropped:0 overruns:0 carrier:0
      	Kollisionen:0 Sendewarteschlangenlänge:1000 
      	RX bytes:1447618861 (1.3 GiB)  TX bytes:18761298 (17.8 MiB)

lo    	Protokoll:Lokale Schleife  
      	inet Adresse:127.0.0.1  Maske:255.0.0.0
      	inet6 Adresse: ::1/128 Gültigkeitsbereich:Maschine
      	UP LOOPBACK RUNNING  MTU:65536  Metric:1
      	RX packets:776 errors:0 dropped:0 overruns:0 frame:0
      	TX packets:776 errors:0 dropped:0 overruns:0 carrier:0
      	Kollisionen:0 Sendewarteschlangenlänge:0 
      	RX bytes:38920 (38.0 KiB)  TX bytes:38920 (38.0 KiB)


dhcpcd läuft, es ist aber wichtig, dass das net.eth0 init Script funktioniert, denn ich benutze diese Karte mit mehreren IPs die über /etc/conf.d/net konfiguriert werden!


Im Augenblick versuche ich ein emerge -e system

Aber es lassen sich einige Pakete einfach nicht bauen, aus welchen Gründen hab ich noch nicht genauer untersucht.

Ich gehe einfach davon aus das es Datenkorruption gegeben hat. Fragt sich nur wo.

fsck hab ich mit -pfD drüber laufen lassen, aus chroot im rescue System!

Dieser Beitrag wurde bereits 4 mal editiert, zuletzt von »atze« (19.02.2014, 19:42)


2

19.02.2014, 02:53

Wenn der Server läuft, was sagt

Quellcode

1
cat /proc/mdstat
?
Welchen Server hast Du denn? Und Deine Netzwerkkarte ist "eth0"? Ist das mit Absicht so, oder ältere UDEV-Version drauf?

Hetzner hat die Platte ersetzt, aber hast Du die noch funktionierende wieder auf die neue, von Hetzner ersetzte (leere) zurückkgespiegelt?
Normalerweise sind bei RAID1 ja auf beiden Platten exakt dieselben Daten vorhanden...

[unrelevant, da in Fragestellung schon geklärt]
Wie kommst Du ohne eth0 überhaupt an den Server ran (sshd geht ja nicht dann) - Lara? (KVMoIP)
[/unrelevant]

Die Pakete, die nicht gebaut werden konnten, sind das viele?
Der Ordner /usr/portage/distfiles - ist der vorhanden? - Ich würd ihn mal verschieben/umbenennen und dann dies

Quellcode

1
emerge -fevaDN @world
probieren. Das läd Dir frische Sourcecodes der bei Dir installierten Programme runter. Evtl kommen die merge-Fehler daher, das Source-Code-Pakete kompromittiert sind... Damit, wenns dann durchläuft, ist aber schonmal das System wieder konsistent.
Hoffe nur, die Datenbanken (soweit genutzt) sind noch intakt... Backups?

P.S. Bin auch Hetzner-Root-Server-Kunde :rolleyes:
Gruß
mnt_gentoo
_________________________________________________________________________________________

Die Launen und das Schicksal eines Gentoo-Users: ?( :| :cursing: :wacko: 8| ^^ 8o ;( :P ?( ...

Dieser Beitrag wurde bereits 2 mal editiert, zuletzt von »mnt_gentoo« (19.02.2014, 03:06)


3

19.02.2014, 19:37

Der Server nennt sich EX4 und hat 2 3 TB Platten eingebaut.

Quellcode

1
cat /proc/mdstat

hatte komischerweise keine Fehler angezeigt auch sonst hat mich mdadm nicht per email über irgendwelche Fehler informiert ... Aber auf grund der seltsamen Problme mit dem Server und der Lesefehler im Log, habe ich dann selbst di esda aus dem Raid entfernt:

Quellcode

1
2
mdadm --manage /dev/mdXX --fail /dev/sdaX
mdadm --manage /dev/mdXX --remove /dev/sdaX


Die Netzwerkkarte ist eth0, weil ich das alte udev Format nutze. Das sah man aber auch am ifconfig, wie ich oben schon erwähnte! Aber dhcpcd hat gestartet und einfach eth0 irgendwie angemacht un deshalb kam ich auch über shd rein! Trotzdem ging das Script net.eth0 nicht! Das war ja gerade das mysteriöse! Meine installierten Server sind meist von net.eth0 und den weiteren IPs die damit geladen werden abhängig, deswegen gingen wohl die meistens Dienste nicht mehr!

Inzwischen hab ich folgendes gemacht:
2 * nacheinander:

Quellcode

1
emerge -eav --with-bdeps=y --keep-going=y world

bei der Mitte von zweiten Durchlauf ging das net.eth0 Script schon wieder! Einige Pakete sind wie gesagt auch beim bauen abgeschmiert, aber durch das --keep-going lief es ja einfach weiter. Deswegen auch der zweite Durchlauf, bei dem alles bis auf ein Paket durchlief.

Ich gehe davon aus das es Bitfehler in der sda Festplatte gab, die mdadm nicht ja nicht finden kann, und so kann dann Datenkorruption passieren.
Die sda war eine Toschiba, die sdb eine Seagate, welche letztes Jahr erst gewechselt wurde. (Vorher auch Toshiba!)

Nachdem alles wieder ging habe ich dann die neuen Partitionen wieder ins Raid eingefügt. Also so:

Quellcode

1
2
3
sgdisk -R sda sdb 
sgdisk -G sda
mdadm --manage mdXXX -a sdaX

Bis das Raid1 dann wieder komplett synchron war hat es natürlich eine Weile gedauert. Der Server war zu dem Zeitpunkt schon einsatzbereit.

Dann habe ich mal smartctl -x auf der neuen Platte gemacht (sda), und siehe da, die Platte hat schon 510 Tage Laufzeit hinter sich, aber es werden keine Fehler angezeigt.
Die sdb ist ähnlich alt, aber sie zeigt bei smart Fehler an, daraufhin habe ich smartctl -t long gemacht und schon nach ein paar Minuten gab es einen Fehlereintrag und der Test war abgebrochen worden.

Also habe Ich jetzt auch noch die sdb austauschen lassen!

Was habe ich wieder rein bekommen? Wieder eine Toshiba, allerdings mit nur 250 Tagen Laufzeit und Fehlern im smart-log!

Ich werde später, nachdem das Syncen fertig ist, auch einen langen Smartt-Test auf der neuen sdb machen und Hetzner wahrscheinlich fragen, wieso ich eine kaputte Festplatte bekommen habe!? Inzwischen sieht man bei den neuen Hetzner Servern auch keinen Server mehr mit den 3TB Platten, nur noch mit 2TB Platten, die 3TB sind vielleicht wirklich zu anfällig.

Aktuelle sdb:

Quellcode

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
smartctl -x /dev/sdb                                                                                                                                                                                                                   [19:21:07]
smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.11.7-hardened-r1] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     TOSHIBA DT01ACA300
Serial Number:    23M7Y1NAS
LU WWN Device Id: 5 000039 ff4c39ba9
Firmware Version: MX6OABB0
User Capacity:    3.000.592.982.016 bytes [3,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Feb 19 19:30:53 2014 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is:   Unavailable
APM feature is:   Disabled
Rd look-ahead is: Enabled
Write cache is:   Enabled
ATA Security is:  Disabled, frozen [SEC2]

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever 
                                        been run.
Total time to complete Offline 
data collection:                (24086) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 402) minutes.
SCT capabilities:              (0x003d) SCT Status supported.
                                        SCT Error Recovery Control supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAGS    VALUE WORST THRESH FAIL RAW_VALUE
  1 Raw_Read_Error_Rate     PO-R--   100   100   016    -    0
  2 Throughput_Performance  P-S---   138   138   054    -    76
  3 Spin_Up_Time            POS---   100   100   024    -    339
  4 Start_Stop_Count        -O--C-   100   100   000    -    9
  5 Reallocated_Sector_Ct   PO--CK   100   100   005    -    1
  7 Seek_Error_Rate         PO-R--   100   100   067    -    0
  8 Seek_Time_Performance   P-S---   121   121   020    -    34
  9 Power_On_Hours          -O--C-   100   100   000    -    6253
 10 Spin_Retry_Count        PO--C-   100   100   060    -    0
 12 Power_Cycle_Count       -O--CK   100   100   000    -    9
192 Power-Off_Retract_Count -O--CK   100   100   000    -    31
193 Load_Cycle_Count        -O--C-   100   100   000    -    31
194 Temperature_Celsius     -O----   171   171   000    -    35 (Min/Max 23/45)
196 Reallocated_Event_Count -O--CK   100   100   000    -    6
197 Current_Pending_Sector  -O---K   100   100   000    -    0
198 Offline_Uncorrectable   ---R--   100   100   000    -    0
199 UDMA_CRC_Error_Count    -O-R--   200   200   000    -    0
                            ||||||_ K auto-keep
                            |||||__ C event count
                            ||||___ R error rate
                            |||____ S speed/performance
                            ||_____ O updated online
                            |______ P prefailure warning

General Purpose Log Directory Version 1
SMART           Log Directory Version 1 [multi-sector log support]
Address    Access  R/W   Size  Description
0x00       GPL,SL  R/O      1  Log Directory
0x01           SL  R/O      1  Summary SMART error log
0x03       GPL     R/O      1  Ext. Comprehensive SMART error log
0x04       GPL     R/O      7  Device Statistics log
0x06           SL  R/O      1  SMART self-test log
0x07       GPL     R/O      1  Extended self-test log
0x08       GPL     R/O      2  Power Conditions log
0x09           SL  R/W      1  Selective self-test log
0x10       GPL     R/O      1  NCQ Command Error log
0x11       GPL     R/O      1  SATA Phy Event Counters
0x20       GPL     R/O      1  Streaming performance log [OBS-8]
0x21       GPL     R/O      1  Write stream error log
0x22       GPL     R/O      1  Read stream error log
0x80-0x9f  GPL,SL  R/W     16  Host vendor specific log
0xe0       GPL,SL  R/W      1  SCT Command/Status
0xe1       GPL,SL  R/W      1  SCT Data Transfer

SMART Extended Comprehensive Error Log Version: 1 (1 sectors)
Device Error Count: 12 (device log contains only the most recent 4 errors)
        CR     = Command Register
        FEATR  = Features Register
        COUNT  = Count (was: Sector Count) Register
        LBA_48 = Upper bytes of LBA High/Mid/Low Registers ]  ATA-8
        LH     = LBA High (was: Cylinder High) Register    ]   LBA
        LM     = LBA Mid (was: Cylinder Low) Register      ] Register
        LL     = LBA Low (was: Sector Number) Register     ]
        DV     = Device (was: Device/Head) Register
        DC     = Device Control Register
        ER     = Error register
        ST     = Status register
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 12 [3] occurred at disk power-on lifetime: 6190 hours (257 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 01 43 00 00 52 a0 22 bd 02 00  Error: WP at LBA = 0x52a022bd = 1386226365

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  61 02 00 00 20 00 00 00 80 0a 00 40 00  2d+06:30:51.741  WRITE FPDMA QUEUED
  61 02 00 00 00 00 00 1d 81 50 00 40 00  2d+06:30:51.699  WRITE FPDMA QUEUED
  61 00 1a 00 08 00 01 5c bf ab 80 40 00  2d+06:30:51.417  WRITE FPDMA QUEUED
  60 02 00 00 60 00 00 00 80 0a 00 40 00  2d+06:30:51.383  READ FPDMA QUEUED
  60 02 00 00 58 00 01 5c bf ac 00 40 00  2d+06:30:51.383  READ FPDMA QUEUED

Error 11 [2] occurred at disk power-on lifetime: 6190 hours (257 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 03 43 00 00 52 a0 22 bd 02 00  Error: UNC at LBA = 0x52a022bd = 1386226365

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 04 00 00 00 00 00 52 a0 22 00 40 00  2d+06:30:44.359  READ FPDMA QUEUED
  2f 00 20 00 01 00 00 00 00 00 10 00 00  2d+06:30:44.359  READ LOG EXT
  60 04 00 00 18 00 00 52 a0 22 00 40 00  2d+06:30:44.154  READ FPDMA QUEUED
  60 00 e1 00 10 00 00 52 a0 22 7d 40 00  2d+06:30:44.154  READ FPDMA QUEUED
  60 00 c0 00 00 00 00 52 a0 21 fd 40 00  2d+06:30:44.154  READ FPDMA QUEUED

Error 10 [1] occurred at disk power-on lifetime: 6190 hours (257 days + 22 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 a1 00 00 52 a0 22 bd 02 00  Error: UNC at LBA = 0x52a022bd = 1386226365

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 04 00 00 18 00 00 52 a0 22 00 40 00  2d+06:30:44.154  READ FPDMA QUEUED
  60 00 e1 00 10 00 00 52 a0 22 7d 40 00  2d+06:30:44.154  READ FPDMA QUEUED
  60 00 c0 00 00 00 00 52 a0 21 fd 40 00  2d+06:30:44.154  READ FPDMA QUEUED
  60 00 20 00 00 00 00 52 a0 21 dc 40 00  2d+06:30:44.153  READ FPDMA QUEUED
  60 00 20 00 08 00 00 52 a0 22 5d 40 00  2d+06:30:44.153  READ FPDMA QUEUED

Error 9 [0] occurred at disk power-on lifetime: 5967 hours (248 days + 15 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 01 10 00 00 90 83 2e f0 00 00  Error: WP at LBA = 0x90832ef0 = 2424516336

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  61 00 85 00 18 00 00 92 8b c1 7b 40 00  5d+10:39:39.402  WRITE FPDMA QUEUED
  61 02 00 00 00 00 00 92 8b b8 00 40 00  5d+10:39:39.398  WRITE FPDMA QUEUED
  61 02 00 00 c8 00 00 92 8b e8 00 40 00  5d+10:39:39.005  WRITE FPDMA QUEUED
  61 02 00 00 10 00 00 92 8b e6 00 40 00  5d+10:39:39.004  WRITE FPDMA QUEUED
  61 02 00 00 c0 00 00 92 8b e4 00 40 00  5d+10:39:39.000  WRITE FPDMA QUEUED

SMART Extended Self-test Log Version: 1 (1 sectors)
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      6230         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Status Version:                  3
SCT Version (vendor specific):       256 (0x0100)
SCT Support Level:                   1
Device State:                        SMART Off-line Data Collection executing in background (4)
Current Temperature:                    35 Celsius
Power Cycle Min/Max Temperature:     27/37 Celsius
Lifetime    Min/Max Temperature:     23/45 Celsius
Under/Over Temperature Limit Count:   0/0
SCT Temperature History Version:     2
Temperature Sampling Period:         1 minute
Temperature Logging Interval:        1 minute
Min/Max recommended Temperature:      0/60 Celsius
Min/Max Temperature Limit:           -40/70 Celsius
Temperature History Size (Index):    128 (18)

Index    Estimated Time   Temperature Celsius
  19    2014-02-19 17:23    36  *****************
 ...    ..(105 skipped).    ..  *****************
 125    2014-02-19 19:09    36  *****************
 126    2014-02-19 19:10    35  ****************
 127    2014-02-19 19:11    36  *****************
 ...    ..(  5 skipped).    ..  *****************
   5    2014-02-19 19:17    36  *****************
   6    2014-02-19 19:18    35  ****************
   7    2014-02-19 19:19    36  *****************
 ...    ..(  9 skipped).    ..  *****************
  17    2014-02-19 19:29    36  *****************
  18    2014-02-19 19:30    35  ****************

SCT Error Recovery Control:
           Read: Disabled
          Write: Disabled

Device Statistics (GP Log 0x04)
Page Offset Size         Value  Description
  1  =====  =                =  == General Statistics (rev 1) ==
  1  0x008  4                9  Lifetime Power-On Resets
  1  0x010  4             6253  Power-on Hours
  1  0x018  6      77863431481  Logical Sectors Written
  1  0x020  6        193977286  Number of Write Commands
  1  0x028  6     101782045041  Logical Sectors Read
  1  0x030  6        343314405  Number of Read Commands
  3  =====  =                =  == Rotating Media Statistics (rev 1) ==
  3  0x008  4             6253  Spindle Motor Power-on Hours
  3  0x010  4             6253  Head Flying Hours
  3  0x018  4               31  Head Load Events
  3  0x020  4                1  Number of Reallocated Logical Sectors
  3  0x028  4             7634  Read Recovery Attempts
  3  0x030  4                6  Number of Mechanical Start Failures
  4  =====  =                =  == General Errors Statistics (rev 1) ==
  4  0x008  4               12  Number of Reported Uncorrectable Errors
  4  0x010  4                4  Resets Between Cmd Acceptance and Completion
  5  =====  =                =  == Temperature Statistics (rev 1) ==
  5  0x008  1               36  Current Temperature
  5  0x010  1               38~ Average Short Term Temperature
  5  0x018  1               32~ Average Long Term Temperature
  5  0x020  1               45  Highest Temperature
  5  0x028  1               23  Lowest Temperature
  5  0x030  1               43~ Highest Average Short Term Temperature
  5  0x038  1               25~ Lowest Average Short Term Temperature
  5  0x040  1               32~ Highest Average Long Term Temperature
  5  0x048  1               25~ Lowest Average Long Term Temperature
  5  0x050  4                0  Time in Over-Temperature
  5  0x058  1               60  Specified Maximum Operating Temperature
  5  0x060  4                0  Time in Under-Temperature
  5  0x068  1                0  Specified Minimum Operating Temperature
  6  =====  =                =  == Transport Statistics (rev 1) ==
  6  0x008  4               30  Number of Hardware Resets
  6  0x010  4               23  Number of ASR Events
  6  0x018  4                0  Number of Interface CRC Errors
                              |_ ~ normalized value

SATA Phy Event Counters (GP Log 0x11)
ID      Size     Value  Description
0x0001  2            0  Command failed due to ICRC error
0x0002  2            0  R_ERR response for data FIS
0x0003  2            0  R_ERR response for device-to-host data FIS
0x0004  2            0  R_ERR response for host-to-device data FIS
0x0005  2            0  R_ERR response for non-data FIS
0x0006  2            0  R_ERR response for device-to-host non-data FIS
0x0007  2            0  R_ERR response for host-to-device non-data FIS
0x0009  2           11  Transition from drive PhyRdy to drive PhyNRdy
0x000a  2            8  Device-to-host register FISes sent due to a COMRESET
0x000b  2            0  CRC errors within host-to-device FIS
0x000d  2            0  Non-CRC errors within host-to-device FIS


Aktuelle sda

Quellcode

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
smartctl -x /dev/sda 
smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.11.7-hardened-r1] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.14 (AF)
Device Model: ST3000DM001-1CH166
Serial Number: S1F0SPBJ
LU WWN Device Id: 5 000c50 051a4c883
Firmware Version: CC43
User Capacity: 3.000.592.982.016 bytes [3,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 7200 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Wed Feb 19 19:32:42 2014 CET

==> WARNING: A firmware update for this drive may be available,
see the following Seagate web pages:
http://knowledge.seagate.com/articles/en_US/FAQ/207931en
http://knowledge.seagate.com/articles/en_US/FAQ/223651en

SMART support is: Available - device has SMART capability.
SMART support is: Enabled
AAM feature is: Unavailable
APM level is: 128 (minimum power consumption without standby)
Rd look-ahead is: Enabled
Write cache is: Enabled
ATA Security is: Disabled, frozen [SEC2]

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever 
been run.
Total time to complete Offline 
data collection: ( 584) seconds.
Offline data collection
capabilities: (0x73) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
No Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine 
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 332) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-- 114 099 006 - 68443904
3 Spin_Up_Time PO---- 092 092 000 - 0
4 Start_Stop_Count -O--CK 100 100 020 - 12
5 Reallocated_Sector_Ct PO--CK 100 100 036 - 0
7 Seek_Error_Rate POSR-- 087 060 030 - 4905349575
9 Power_On_Hours -O--CK 087 087 000 - 12146
10 Spin_Retry_Count PO--C- 100 100 097 - 0
12 Power_Cycle_Count -O--CK 100 100 020 - 12
183 Runtime_Bad_Block -O--CK 100 100 000 - 0
184 End-to-End_Error -O--CK 100 100 099 - 0
187 Reported_Uncorrect -O--CK 100 100 000 - 0
188 Command_Timeout -O--CK 100 097 000 - 4 5 5
189 High_Fly_Writes -O-RCK 100 100 000 - 0
190 Airflow_Temperature_Cel -O---K 067 058 045 - 33 (Min/Max 29/34)
191 G-Sense_Error_Rate -O--CK 100 100 000 - 0
192 Power-Off_Retract_Count -O--CK 100 100 000 - 11
193 Load_Cycle_Count -O--CK 098 098 000 - 4182
194 Temperature_Celsius -O---K 033 042 000 - 33 (0 22 0 0 0)
197 Current_Pending_Sector -O--C- 100 100 000 - 0
198 Offline_Uncorrectable ----C- 100 100 000 - 0
199 UDMA_CRC_Error_Count -OSRCK 200 200 000 - 0
240 Head_Flying_Hours ------ 100 253 000 - 12146h+41m+22.908s
241 Total_LBAs_Written ------ 100 253 000 - 52813987160
242 Total_LBAs_Read ------ 100 253 000 - 374403640142
||||||_ K auto-keep
|||||__ C event count
||||___ R error rate
|||____ S speed/performance
||_____ O updated online
|______ P prefailure warning

General Purpose Log Directory Version 1
SMART Log Directory Version 1 [multi-sector log support]
Address Access R/W Size Description
0x00 GPL,SL R/O 1 Log Directory
0x01 SL R/O 1 Summary SMART error log
0x02 SL R/O 5 Comprehensive SMART error log
0x03 GPL R/O 5 Ext. Comprehensive SMART error log
0x06 SL R/O 1 SMART self-test log
0x07 GPL R/O 1 Extended self-test log
0x09 SL R/W 1 Selective self-test log
0x10 GPL R/O 1 NCQ Command Error log
0x11 GPL R/O 1 SATA Phy Event Counters
0x21 GPL R/O 1 Write stream error log
0x22 GPL R/O 1 Read stream error log
0x80-0x9f GPL,SL R/W 16 Host vendor specific log
0xa1 GPL,SL VS 20 Device vendor specific log
0xa2 GPL VS 4496 Device vendor specific log
0xa8 GPL,SL VS 129 Device vendor specific log
0xa9 GPL,SL VS 1 Device vendor specific log
0xab GPL VS 1 Device vendor specific log
0xb0 GPL VS 5176 Device vendor specific log
0xbd GPL VS 512 Device vendor specific log
0xbe-0xbf GPL VS 65535 Device vendor specific log
0xc0 GPL,SL VS 1 Device vendor specific log
0xc1 GPL,SL VS 10 Device vendor specific log
0xc4 GPL,SL VS 5 Device vendor specific log
0xe0 GPL,SL R/W 1 SCT Command/Status
0xe1 GPL,SL R/W 1 SCT Data Transfer

SMART Extended Comprehensive Error Log Version: 1 (5 sectors)
No Errors Logged

SMART Extended Self-test Log Version: 1 (1 sectors)
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed without error 00% 11818 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

SCT Data Table command not supported

SCT Error Recovery Control command not supported

Device Statistics (GP Log 0x04) not supported

SATA Phy Event Counters (GP Log 0x11)
ID Size Value Description
0x000a 2 8 Device-to-host register FISes sent due to a COMRESET
0x0001 2 0 Command failed due to ICRC error
0x0003 2 0 R_ERR response for device-to-host data FIS
0x0004 2 0 R_ERR response for host-to-device data FIS
0x0006 2 0 R_ERR response for device-to-host non-data FIS
0x0007 2 0 R_ERR response for host-to-device non-data FIS

4

20.02.2014, 05:53

Zunächst mal vielen Dank für Deine sehr ausführliche Beschreibung und - durch Angabe der Befehle - für andere User, die wie ich nachträglich noch nie eine Platte/deren Partitionen aus einem laufenden RAID entfernt haben, großartige Hilfe, atze!
Habe heute auch mal, anlässlich Deiner Platten-Probleme, und das bei Dir mdadm die Plattenfehler nicht auffinden konnte, bei mir den Test mit smartctl (-t long) durchlaufen lassen. Ist jetzt bei der 2ten Platte, also sdb am werken. Denn meine laufen nun auch an die 1.5 Jahre mittlerweile und das kommt mit den 510 Tage Betriebszeit, die Du von der "neuen" sdb besagst, ja hin.

Was ich aber nicht verstehen kann: Ich hatte vor einiger Zeit im Internet nachgeschaut und dort dann gelesen, das die Lebensdauer stark frequentierter Server dennoch bis 5 jahre betragen sollte. Normal, bis wenig-frequentierte sollen gar 10 Jahre laufen/gelaufen haben. Und das mit Festplattentechnolgier von vor 5 Jahren und früher. Zudem kommen in Servern normalerweise die wesentlich wesentlich teureren "24/7"-Platten zum Einsatz. Ich erinner mich an eine Seagate, die ich vor Jahren mal in einem alten System hier verbaut hatte: 5 Jahre lang hielt die, die lebt immer noch. Aber da es sich um eine PATA handelt, kann ich sie nicht mehr gebrauchen. Und das war keine "24/7"(!) - Mensch, wenn ich bedenke, was ich die mit Dauer-Neuinstallationen malträtiert habe. Wie ein Fels in der Brandung, die kleine "Kampfsau" :whistling:
Setzen die bei Hetzner etwa keine 24/7- er ein? Ich hab mir in meinen EX10 nämlich eine zusätzliche Platte einbauen lassen, wohin die Backups hin erstellt werden. Vorher nutzte ich SFTP auf deren Haus-Backup-Speicher, aber weil mich die dauernden "stalled" - Meldungen mit der Zeit nervten, wenn ich backups erstellte, habe ich den backup-space gekündigt und mir eine zusätzliche Platte einbauen lassen (sdc) Ist auch eine Seagate-Barracuda. So wie die 2 ersten, des RAID1.
Und die wurde mir eine zeit lang mit 15€/Monat berechnet. Normale Platten mit 3TB kriegt man ab 100€. Eine 24/7 kostet als 2TB bereits an die 200€. Komisch... Werden die ja wohl nicht machen, "normal-Desktop-Platten" einbauen. Kann man nicht drauf bestehen, was die einem einbauen? Zur Not würd ich denen 2 von mir gekaufte dahinschicken... Ob die auch eingebaut werden kann man ja feststellen. Nur diese Flickerei, sorry... RAID dauerhaft neubauen... Hab ich keine Böcke zu...

Hast hardened im Einsatz? - Wollt ich gestern schon fragen...

LG und danke nochmal für die beschriebene Vorgehensweise :)
Gruß
mnt_gentoo
_________________________________________________________________________________________

Die Launen und das Schicksal eines Gentoo-Users: ?( :| :cursing: :wacko: 8| ^^ 8o ;( :P ?( ...

5

20.02.2014, 19:40

Ich habe insgesamt zwei Server bei Hetzner. Auf beiden läuft Gentoo Hardened.
Auf dem um den es hier geht läuft mdadm mit ext4 Partitionen, und der andere hat eine Mischung aus mdadm mit ext4 und ZFS on Linux und ist somit ein wenig als Experiment anzusehen.

Ich habe jetzt mal geguckt was das überhaupt für Festplatten Modelle sind die bei mir eingebaut sind, es handelt sich wohl wirklich um normale Desktop Modelle, und nicht um die Ernteprise Platten, die man eigentlich in einem Server erwarten würde.
Das ist definitiv etwas enttäuschend, aber ich habe keine Ahnung wie es da bei anderen Hostern und deren Root Servern in der Preisklasse um 40€-50€/Monat aussieht. Ansonsten kann ich aber sagen das Mir Hetzner vom Support und der Oberfläche z.B. des Robot deutlich mehr zusagt als viele andere Hoster!

Ich bin mir sicher das die Festplatten vor einige Jahren sogar wesentlich haltbarer waren als heute, vor allem die ersten richtig Größen Modelle über 2 TB werden immer anfälliger für Datenkorruption. Es ist ja nicht so das Datenkorruption die Ausnahme ist, die Festplatten dieser Größe kämpfen intern die ganze Zeit gegen die Datenkorruption, da sie ständig auftritt. Die Daten liegen einfach viel zu dicht inzwischen, so das man an die Grenzen der leistungsfähig der materiellen kommt, denke ich.

Ich benutze Zuhause Spinrite um die Festplatten immer mal wieder aufzufrischen. Das Programm schreibt dabei einfach auf der gesamten Oberfläche der Platte mehrfach und Prüft das Ergebnis, das aktiviert den automatischen Reparaturmechanismus der Platte und erkennt auch schon vorhandene Datenfehler. Es soll auch die Möglichkeit gegeben kaputte Sektoren wiederherzustellen. Außerdem gibt's da noch was ähnliches namensHDD Regenerator.

Bei meinen Server mit ZFS, habe ich gestern mal einen scrub gestartet, dabei wird überprüft ob die Daten schon irgendwo Fehlerhaft sind. Im Gegensatz zu mdadm mit ext4 braucht man bei ZFS, nur ZFS selber um den RAID1 oder auch einen anderen Raid Mode auf den Platten auszuführen, das ZFS ist also eien Festplatten Manager und Dateisystem zusammen. Genauso wie BRTFS was jetzt wohl nicht mehr als unstable gilt im neuesten Kernel 3.13. Aber der große Vorteil ist eben das es Fehler kennen kann, wenn man ab und zu Scrub startet.
Und heute Sehe ich das ich auch dort einen fehlerhafte Platte habe:

Quellcode

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
zpool status -x
  pool: rpool
 state: ONLINE
status: One or more devices has experienced an unrecoverable error.  An
    	attempt was made to correct the error.  Applications are unaffected.
action: Determine if the device needs to be replaced, and clear the errors
    	using 'zpool clear' or replace the device with 'zpool replace'.
   see: http://zfsonlinux.org/msg/ZFS-8000-9P
  scan: scrub repaired 240K in 6h5m with 0 errors on Thu Feb 20 05:42:05 2014
config:

    	NAME    	STATE 	READ WRITE CKSUM
    	rpool   	ONLINE   	0 	0 	0
       	mirror-0  ONLINE   	0 	0 	0
          	sda5	ONLINE   	0 	0 	0
          	sdb5	ONLINE   	0 	0 	4

errors: No known data errors

6

20.02.2014, 22:19

Ich hab mir nochmal die Angebote bei Hetzner angesehen, einen EX4 gibt es dort inzwischen ja nicht mehr und die aktuellen Angebote haben offenbar meistens Enterprise Platten drin.

7

22.02.2014, 08:12

Hmh ZFS kannte ich garnicht... Habe auf meinen ext4 und initramfs für Superblock V 1.2, was ja der Kernel nicht alleine lesen kann... Btrfs , wenn es nur ein experimental-Server ist, ja. Aber ansonsten würde ich auf gerade stable gewordene Dinge auf produktionsservern verzichten. Kernel 3.13.x habe ich auch nur zuhause. Auf dem Server der derzeit letzte stable hardened. Nutzt Du bei hardened auch RBAC? Ich eigentlich nur PaX und GRSec ist an. Und die PaX-Params wie "randomize memory" / "emulate trampolines" udgl. Ich glaube, PaX hat uns vor dem Sicherheitsleck bei Hetzner letzten Jahres bewahrt: Das rootkit, was dort die Hetzner-Server befallen hatte, aber keine binaries verseucht, so rootkit-Suchprogramme umgeht. Da waren, wie ich hörte, auch einige Kundenserver befallen.

Zitat

Ansonsten kann ich aber sagen das Mir Hetzner vom Support und der Oberfläche z.B. des Robot deutlich mehr zusagt als viele andere Hoster!

Stimme ich auch zu! Vor allem die FAQ auf der wiki-hetzner-seite sind gut. Zu ohren gekommen ist mir nämlich auch, das wohl einige Hoster nicht wünschen, das Fremdsysteme installiert werden: Also sollen nur die Standard-Images installiert werden. Hetzner's rescue System / Handling ist intuitiv und der Support schnell und freundlich.

Zu den Servern an sich: Den EX10 gibt es auch nicht mehr offiziell. Der hat aber Enterprise Platten drin. Denn ich wollte mir solcheine für meinen Home-Rechner mit gentoo damals kaufen, daher weiß ich die preise der Platten und das es eine 24/7 ist/sind.

Jetzt haben die viel mit Dell und HP-Enterprise-Systemen. Kosten aber ganz ordentlich: 300 und so. Meiner kostet im Monat noch 139€.
Gruß
mnt_gentoo
_________________________________________________________________________________________

Die Launen und das Schicksal eines Gentoo-Users: ?( :| :cursing: :wacko: 8| ^^ 8o ;( :P ?( ...

8

25.04.2014, 02:05

So, dann nochmal hierzu (passt zum Thema/selbes Thema, weshalb ich kein neues aufmachen möchte) ein kleiner Beitrag von mir: - Gestern hat es auch mich/ bzw. eine meiner beiden RAID1-ServerPlatten erwischt.
Gekommen bin ich darauf, da seit etwa 2 Wochen seltsame Fehlermeldungen zu beobachten waren... Und vor allem immer dann, wenn der Server lange am Stück lief (ohne wg. Updates rebootet gewesen zu sein):

Fehler waren:
---Beim Reboot---

Quellcode

1
Could'nt determine RUNLEVEL


---Unrundes Systemverhalten---
Instabilitäten: Abstürze des MailServers (Dovecot reagiert da sehr empfindlich).

Entschied mich einen smartctl auszuführen... Und siehe da: (obwohl cat /proc/mdstat noch alle Arrays mit [UU] kennzeichnete, also fehlerloser Zustand, gab es Probleme)

Quellcode

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
smartctl -t short /dev/sdb
smartctl 6.1 2013-03-16 r3800 [x86_64-linux-3.13.6-hardened-r3] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.14 (AF)
Device Model:     ST3000DM001-9YN166
Serial Number:    S1F09KM2
LU WWN Device Id: 5 000c50 04a4e74ef
Firmware Version: CC4C
User Capacity:    3.000.592.982.016 bytes [3,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Apr 23 07:04:51 2014 GMT

==> WARNING: A firmware update for this drive is available,
see the following Seagate web pages:
http://knowledge.seagate.com/articles/en_US/FAQ/207931en
http://knowledge.seagate.com/articles/en_US/FAQ/223651en

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Disabled.
Self-test execution status:      ( 249) Self-test routine in progress...
                                        90% of test remaining.
Total time to complete Offline 
data collection:                (  575) seconds.
Offline data collection
capabilities:                    (0x73) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        No Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine 
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 333) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   110   100   006    Pre-fail  Always       -       204624624
  3 Spin_Up_Time            0x0003   093   092   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       18
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       768
  7 Seek_Error_Rate         0x000f   076   060   030    Pre-fail  Always       -       48606182
  9 Power_On_Hours          0x0032   081   081   000    Old_age   Always       -       16727
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       18
183 Runtime_Bad_Block       0x0032   100   100   000    Old_age   Always       -       0
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   083   083   000    Old_age   Always       -       17
188 Command_Timeout         0x0032   100   099   000    Old_age   Always       -       2 2 2
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   061   049   045    Old_age   Always       -       39 (Min/Max 27/43)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       6
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       235502
194 Temperature_Celsius     0x0022   039   051   000    Old_age   Always       -       39 (0 20 0 0 0)
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       5670h+30m+18.441s
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       115002208306966
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       7657161013334

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Self-test routine in progress 90%     16727         -
# 2  Short offline       Completed without error       00%     16727         -
# 3  Short offline       Completed without error       00%     16727         -
# 4  Short offline       Completed without error       00%     16727         -
# 5  Short offline       Completed without error       00%     16726         -
# 6  Short offline       Completed: read failure       40%     16726         499546084        <<<--------- LBA R/W Failure
# 7  Extended offline    Completed without error       00%     15240         -
# 8  Short offline       Completed without error       00%     13797         -
# 9  Extended offline    Completed without error       00%     13768         -
#10  Short offline       Completed without error       00%     13606         -
#11  Extended offline    Completed without error       00%     12404         -
#12  Extended offline    Completed without error       00%      8933         -
#13  Extended offline    Completed without error       00%      5710         -
#14  Short offline       Completed without error       00%      5700         -
#15  Short offline       Completed without error       00%      3062         -
#16  Extended offline    Completed without error       00%         5         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.


Um anderen bei soetwas, sollte ihnen sowas wiederfahren, zu helfen, ergänzend zu atze's damaligem Posting und seinerseits sehr guter Erklärung, wie er vorging: Hier nochmal eine SEHR gute Anleitung, die einwandfrei funktioniert und wirklich nur empfohlen werden kann. - Zudem wirklich intuitiv und gut umsetzbar.

Habe eine neue "sdb" bekommen, die relativ neuwertig war: Nur 150 Betriebsstunden gehabt. Trotzdem: Viel Glück, das Euch sowas weitgehend erspart bleibt!!
Gruß
mnt_gentoo
_________________________________________________________________________________________

Die Launen und das Schicksal eines Gentoo-Users: ?( :| :cursing: :wacko: 8| ^^ 8o ;( :P ?( ...