Wer sich schon mit dem Thema Festplatten ein wenig auseinander gesetzt hat und schon mal eine Festplatte gekauft und eingebaut hat, dem ist vielleicht der Begriff S.M.A.R.T. schon aufgefallen. Was ist aber S.M.A.R.T. und wozu dient dies? Dieser Artikel soll euch erklären, was S.M.A.R.T ist und was dies tut.
S.M.A.R.T. steht für Self-Monitoring, Analysis and Technology Reporting. S.M.A.R.T. überwacht die Festplatte und warnt bei drohendem Ausfall den Benutzer. Es werden diverse Parameter geprüft. Die Prüfung selbst beginnt bereits schon im BIOS (Basic Input/Output System), also beim start des Rechners. Seit Windows 95b hat Microsoft einen eigenen Treiber für Windows Entwickelt, welcher unter laufendem Betrieb ständig die Parameter überprüft.
Was für Parameter geprüft werden und welches die Grenzwerte dafür sind, bestimmt jeder Festplattenhersteller selbst. Wenn die Grenzwerte überschritten sind, wird eine Warnmeldung ausgegeben und warnt so frühzeitig, bevor die Festplatte ausfällt. Ein deaktivieren von S.M.A.R.T. ist nicht vorgesehen obwohl dies im Standard definiert wurde, aber viele Festplattenhersteller implementieren diese Funktion nicht. Die Meldungen von S.M.A.R.T. werden auf der Festplatte in einem separaten Bereich protokolliert, welche von anderen Applikationen nicht beschrieben werden kann.
Oftmals hört man, das S.M.A.R.T. die Festplatte selbst verlangsamen soll, dies ist aber nicht der Fall. Erstens werden die Aktivitäten nur Protokolliert und es wird nicht selbst eingegriffen und zweitens werden Parameter wie Temperatur oder Laufgeschwindigkeit von Sensoren gemessen. Es wird zwischen zwei verschiedene Parameter unterschieden, welche aufgezeichnet werden: Online Parameter und Offline Parameter. Online Parameter werden im permanent aufgezeichnet und Offline Parameter nur dann, wenn die Festplatte im Ruhemodus ist.
Anderer Anschluss, anderes S.M.A.R.T.
Je nach Festplattenanschluss unterscheiden sich die S.M.A.R.T’s Standards. Bei Festplatten, welche intern angeschlossen werden, also ATA und SCSI Festplatten, gibt es jeweils einen Standard. Beide Anschlussarten kennen den Health Status, welche die Firmware der Festplatte selbst den Status einstuft, in welcher Verfassung die Festplatte selbst ist. Ebenfalls unterstützen beide Varianten das auslesen der Temperatur und diverse andere Parameter von Selbsttests und Logbüchern.
Beim ATA Standard ist es zusätzlich möglich, Parameter in Echtzeit über eine Software abzufragen. Somit ist es möglich, genauer zu Analysieren, wann und wo der Fehler auftritt. Die Befehlsparameter von ATA und SCSCI sind aber grundsätzlich unterschiedlich.
Bei externen Festplatten, welche über USB angeschlossen sind, gelten die SCSI Befehlsparameter. Daraus ergibt sich folgendes Problem: Meist sind externe Festplatten ATA angeschlossen und so kann nicht direkt auf die S.M.A.R.T. Parameter zugegriffen werden (USB zu ATA). Dies wird gelöst mit so genannten USB-ATA Bridges. Jedoch unterstützen die Festplattentreiber diese Bridges nicht und daher verwenden Chip Hersteller einfach herstellerspezifische Befehle, welche dann eine Bridge eigentlich überflüssig macht.
Bei Firewire werden die Befehle übermittelt, also können direkt ausgelesen werden, ohne irgendwelche Bridges, ebenso bei eSATA (externe SATA Geräte).
Welche Parameter können überwacht werden?
Wie bereits angesprochen, gibt es eine grössere Anzahl von Parameter, welche überwacht werden. Ich möchte hier einfach auf die wichtigsten eingehen. Je nach Hersteller werden auch mehr oder weniger Parameter protokolliert.
| Parameterart | Parameter | Erklährung |
|---|---|---|
| ausfallrelevant | Seek Error Rate | Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen. Deutet auf Positionierungsproblem der Lese-/Schreibeinheit hin. |
| Raw Read Error Rate | Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen. Deutet auf Problem mit der Plattenoberfläche hin. |
|
| Hardware ECC Recovered | Korrigierte Bitfehler beim Lesen. Kann auf Problem mit der Plattenoberfläche hindeuten. * |
|
| Scan Error Rate | Nicht korrigierbare Fehler beim routinemässigen überprüfen der Festplattenoberflöche. Deutet auf Problem mit der Plattenoberfläche hin. |
|
| Throughput Performance | Allgemeiner Datendurchsatz / Effizienz der Festplatte. Deutet stark auf bremsende Probleme im Laufwerk hin. |
|
| Spin Up Time | Durchschnitt der Startzeit in (Milli-)Sekunden. Deutet auf Probleme beim Motor oder den Platten-Lagern hin. |
|
| Reallocated Sector Count | Anzahl der verbrauchten Reserve-Sektoren. Deutet auf Oberflächenprobleme hin, da nur dann automatisch ein Reservesektor einen normalen ersetzt. |
|
| Drive Temperature | Temperatur des Laufwerkes in Celsius.** | |
| informierend | Start/Stop Count | Anzahl der Start/Stop-Vorgänge eines Laufwerkes (auch Standby). Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet. |
| Power On Hours Count | Laufleistung in Stunden oder Sekunden (inklusive Standby). Deutet auf Abnutzung hin, sagt aber nichts ber Nutzungsumstände in dieser Zeit aus. |
|
| Load/Unload Cycle Count | Parkvorgnge der Schreib-Leseeinheit auf die neben den Platten befindliche Plastikrampe. Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 - der Raw-Wert zeigt die bisherigen. |
|
| Ultra DMA CRC Error Count | Anzahl der aufgetretenen CRC-Fehler. *** |
* Die hohe Datendichte heutiger Festplatten hat zur Folge, dass sich die Magnetfelder der einzelnen Bits überlappen. Das führt dazu, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung.
** Da manche Laufwerke auch Maximal- und Minimalwert speichern, ist eine frühere Unterkühlung/Überhitzung während des Betriebes erkennbar. Der als raw-value angegebene Wert enthält dann alle drei Zahlen hintereinander.
Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder Hotspot-ferne Sensoren.
*** Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
Wie sieht eine Auswertung einer Festplatte aus?
Anhand eines Beispiels einer Hitachi 250 GB Harddisk will ich euch eine solche Auswertung zeigen:
S.M.A.R.T. Tools
Die Festplattenhersteller selbst bieten einige Tools an, hier ein paar Links zu dem Tools der verschiedenen Festplattenhersteller:
Mit der Ultimate Boot CD kann man diverse Festplatten direkt prüfen lassen. Auf der CD befinden sich diverse hilfreiche Tools.
Ein gutes Tool für Windows ist DiskSmart View, welches ganz einfach ermöglicht, den Status seiner Festplatte(n) zur prüfen.
Für Mac User gibt’s den SMARTreporter, welcher den Gesundheitszustand der Festplatte unter Mac OS X anzeigt.
Interessante Links zu dem Thema
- Parameterliste ATA und SCSCI
- Parameter des aktuellen Standards
- Vorschläge der Parameter für einen neuen Standard
- Ausfallstudie von Festplatten



{ 5 comments… read them below or add one }
Neu auf tippsblog.ch: [Doku] Was ist S.M.A.R.T. und was macht es? http://kurzr.ch/1Q
RT @TopsyRT: [Doku] Was ist S.M.A.R.T. und was macht es? http://bit.ly/9OT7ir
merci pour l’article! très intéressant à lire! I love your blog!
Brilliant post and useful information Looking forward to future posts in this field thanks A very interesting article, interesting ideas and a lot of good questions posed Thanks for your insight for the great written piece.
merci pour l’article! très intéressant à lire!