[Doku] Was ist S.M.A.R.T. und was macht es?

by Martin on 13. März 2010

Wer sich schon mit dem Thema Festplatten ein wenig auseinander gesetzt hat und schon mal eine Festplatte gekauft und eingebaut hat, dem ist vielleicht der Begriff S.M.A.R.T. schon aufgefallen. Was ist aber S.M.A.R.T. und wozu dient dies? Dieser Artikel soll euch erklären, was S.M.A.R.T ist und was dies tut.


S.M.A.R.T. Einstellung im BIOS

S.M.A.R.T. steht für Self-Monitoring, Analysis and Technology Reporting. S.M.A.R.T. überwacht die Festplatte und warnt bei drohendem Ausfall den Benutzer. Es werden diverse Parameter geprüft. Die Prüfung selbst beginnt bereits schon im BIOS (Basic Input/Output System), also beim start des Rechners. Seit Windows 95b hat Microsoft einen eigenen Treiber für Windows Entwickelt, welcher unter laufendem Betrieb ständig die Parameter überprüft.

Was für Parameter geprüft werden und welches die Grenzwerte dafür sind, bestimmt jeder Festplattenhersteller selbst. Wenn die Grenzwerte überschritten sind, wird eine Warnmeldung ausgegeben und warnt so frühzeitig, bevor die Festplatte ausfällt. Ein deaktivieren von S.M.A.R.T. ist nicht vorgesehen obwohl dies im Standard definiert wurde, aber viele Festplattenhersteller implementieren diese Funktion nicht. Die Meldungen von S.M.A.R.T. werden auf der Festplatte in einem separaten Bereich protokolliert, welche von anderen Applikationen nicht beschrieben werden kann.

Oftmals hört man, das S.M.A.R.T. die Festplatte selbst verlangsamen soll, dies ist aber nicht der Fall. Erstens werden die Aktivitäten nur Protokolliert und es wird nicht selbst eingegriffen und zweitens werden Parameter wie Temperatur oder Laufgeschwindigkeit von Sensoren gemessen. Es wird zwischen zwei verschiedene Parameter unterschieden, welche aufgezeichnet werden: Online Parameter und Offline Parameter. Online Parameter werden im permanent aufgezeichnet und Offline Parameter nur dann, wenn die Festplatte im Ruhemodus ist.

Anderer Anschluss, anderes S.M.A.R.T.

Je nach Festplattenanschluss unterscheiden sich die S.M.A.R.T’s Standards. Bei Festplatten, welche intern angeschlossen werden, also ATA und SCSI Festplatten, gibt es jeweils einen Standard. Beide Anschlussarten kennen den Health Status, welche die Firmware der Festplatte selbst den Status einstuft, in welcher Verfassung die Festplatte selbst ist. Ebenfalls unterstützen beide Varianten das auslesen der Temperatur und diverse andere Parameter von Selbsttests und Logbüchern.

Beim ATA Standard ist es zusätzlich möglich, Parameter in Echtzeit über eine Software abzufragen. Somit ist es möglich, genauer zu Analysieren, wann und wo der Fehler auftritt. Die Befehlsparameter von ATA und SCSCI sind aber grundsätzlich unterschiedlich.

Bei externen Festplatten, welche über USB angeschlossen sind, gelten die SCSI Befehlsparameter. Daraus ergibt sich folgendes Problem: Meist sind externe Festplatten ATA angeschlossen und so kann nicht direkt auf die S.M.A.R.T. Parameter zugegriffen werden (USB zu ATA). Dies wird gelöst mit so genannten USB-ATA Bridges. Jedoch unterstützen die Festplattentreiber diese Bridges nicht und daher verwenden Chip Hersteller einfach herstellerspezifische Befehle, welche dann eine Bridge eigentlich überflüssig macht.

Bei Firewire werden die Befehle übermittelt, also können direkt ausgelesen werden, ohne irgendwelche Bridges, ebenso bei eSATA (externe SATA Geräte).

Welche Parameter können überwacht werden?

Wie bereits angesprochen, gibt es eine grössere Anzahl von Parameter, welche überwacht werden. Ich möchte hier einfach auf die wichtigsten eingehen. Je nach Hersteller werden auch mehr oder weniger Parameter protokolliert.

ParameterartParameterErklŠährung
ausfallrelevantSeek Error RateNicht korrigierbare Fehler beim Lesen von der Festplatte, fŸührt zum erneuten Einlesen.

Deutet auf Positionierungsproblem der Lese-/Schreibeinheit hin.
Raw Read Error RateNicht korrigierbare Fehler beim Lesen von der Festplatte, fŸührt zum erneuten Einlesen.

Deutet auf Problem mit der PlattenoberflŠäche hin.
Hardware ECC RecoveredKorrigierte Bitfehler beim Lesen.

Kann auf Problem mit der PlattenoberfläŠche hindeuten. *
Scan Error RateNicht korrigierbare Fehler beim routinemŠässigen ü†berprŸüfen der FestplattenoberflöŠche.

Deutet auf Problem mit der PlattenoberflŠäche hin.
Throughput PerformanceAllgemeiner Datendurchsatz / Effizienz der Festplatte.

Deutet stark auf bremsende Probleme im Laufwerk hin.
Spin Up TimeDurchschnitt der Startzeit in (Milli-)Sekunden.

Deutet auf Probleme beim Motor oder den Platten-Lagern hin.
Reallocated Sector CountAnzahl der verbrauchten Reserve-Sektoren.

Deutet auf OberfläŠchenprobleme hin, da nur dann automatisch ein Reservesektor einen normalen ersetzt.
Drive TemperatureTemperatur des Laufwerkes in Celsius.**
informierendStart/Stop CountAnzahl der Start/Stop-VorgäŠnge eines Laufwerkes (auch Standby).

Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stäŠrksten belastet.
Power On Hours CountLaufleistung in Stunden oder Sekunden (inklusive Standby).

Deutet auf Abnutzung hin, sagt aber nichts Ÿber NutzungsumstäŠnde in dieser Zeit aus.
Load/Unload Cycle CountParkvorgŠnge der Schreib-Leseeinheit auf die neben den Platten befindliche Plastikrampe.

Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 - der Raw-Wert zeigt die bisherigen.
Ultra DMA CRC Error CountAnzahl der aufgetretenen CRC-Fehler. ***

* Die hohe Datendichte heutiger Festplatten hat zur Folge, dass sich die Magnetfelder der einzelnen Bits überlappen. Das führt dazu, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt. Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung.

** Da manche Laufwerke auch Maximal- und Minimalwert speichern, ist eine frühere Unterkühlung/Überhitzung während des Betriebes erkennbar. Der als raw-value angegebene Wert enthält dann alle drei Zahlen hintereinander.

Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder Hotspot-ferne Sensoren.

*** Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.

Wie sieht eine Auswertung einer Festplatte aus?

Anhand eines Beispiels einer Hitachi 250 GB Harddisk will ich euch eine solche Auswertung zeigen:

S.M.A.R.T. Tools

Auswertung von S.M.A.R.T. einer Festplatte mit DiskSmart View

Die Festplattenhersteller selbst bieten einige Tools an, hier ein paar Links zu dem Tools der verschiedenen Festplattenhersteller:

Mit der Ultimate Boot CD kann man diverse Festplatten direkt prüfen lassen. Auf der CD befinden sich diverse hilfreiche Tools.

Ein gutes Tool für Windows ist DiskSmart View, welches ganz einfach ermöglicht, den Status seiner Festplatte(n) zur prüfen.

Für Mac User gibt’s den SMARTreporter, welcher den Gesundheitszustand der Festplatte unter Mac OS X anzeigt.

Interessante Links zu dem Thema

Verwandte Beiträge:

{ 5 comments… read them below or add one }

1 Martin Felder März 13, 2010 um 10:27

Neu auf tippsblog.ch: [Doku] Was ist S.M.A.R.T. und was macht es? http://kurzr.ch/1Q

Antworten

2 Lukas Blatter März 13, 2010 um 11:56

RT @TopsyRT: [Doku] Was ist S.M.A.R.T. und was macht es? http://bit.ly/9OT7ir

Antworten

3 Armand März 15, 2010 um 22:30

merci pour l’article! très intéressant à lire! I love your blog!

Antworten

4 sms marketing Mai 15, 2011 um 08:06

Brilliant post and useful information Looking forward to future posts in this field thanks A very interesting article, interesting ideas and a lot of good questions posed Thanks for your insight for the great written piece.

Antworten

5 make a man love you Juni 13, 2011 um 17:14

merci pour l’article! très intéressant à lire!

Antworten

Leave a Comment

Previous post:

Next post: