Self-Monitoring, Analysis and Reporting Technology

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Self-Monitoring, Analysis and Reporting Technology (SMART bzw. S.M.A.R.T., deutsch System zur Selbstüberwachung, Analyse und Statusmeldung) ist ein Industriestandard zur Überwachung von Festplattenlaufwerken (HDD) und Solid-State-Drives (SSD) und dient der Vorhersage eines möglichen Ausfalls des Speichermediums. Es werden dabei die Werte verschiedener Sensoren mit Hilfe von unterschiedlichen Parametern ausgewertet.

Seit Kurzem ist S.M.A.R.T. auch für Flash-Speicher wie MicroSD-Karten verfügbar[1].

Überblick[Bearbeiten | Quelltext bearbeiten]

Die Auswertung der überwachten Daten erfolgt beim Starten des Rechners durch das entsprechend eingestellte BIOS, bzw. andere Firmware, oder durch spezielle Software, die zusätzlich zum Betriebssystem installiert werden muss. Microsoft beispielsweise stellt dafür seit Windows 95b (OSR 2) einen Treiber bereit, der dann von dieser Software angesprochen wird.

Dabei orientiert sich das Programm an vom Festplattenhersteller festgelegten Grenzwerten für die einzelnen Parameter, etwa für die Temperatur. Nach einem längeren Zeitraum kann die Software dann auch zu erwartende Ausfälle prognostizieren.

Das „Abschalten“ von S.M.A.R.T. etwa in den BIOS-Einstellungen schaltet nicht die Datenerfassung, sondern nur die Warnungen bei Überschreitung der Schwellenwerte ab. Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte.

Die gesamte Überwachung verlangsamt die Festplatte nicht, da sie das Geschehen nur protokolliert, ohne korrigierend einzugreifen. Das erledigen bereits festplatteninterne Mechanismen, so bei Erschütterungen, die wiederum schon vor S.M.A.R.T. existierten. Alles Weitere, etwa Laufleistung und Temperatur, wird durch speziell dafür eingebaute Sensoren und Chipfunktionen erfasst. Dabei gibt es eine Einteilung in „Online“-Parameter, die permanent notiert werden, und jene, die in Ruhepausen aktualisiert werden, wenn das Laufwerk gewissermaßen „offline“ ist.

Aussagekraft[Bearbeiten | Quelltext bearbeiten]

S.M.A.R.T. bleibt auf die damit überwachten Massenspeicher wie Festplatten oder SSDs beschränkt und liefert keine Aussage zur Gesamtzuverlässigkeit des Rechnersystems. Eine Verknüpfung der gewonnenen Daten mehrerer Massenspeicher gibt es nicht. Auch ist das System nicht normiert, sondern es bleibt den Herstellern überlassen, welche Parameter sie in welchen Grenzen überwachen. Unter Anwendern wird auch die Genauigkeit der Überwachung diskutiert. So gelten manche Temperatursensoren als falsch platziert oder zu optimistisch eingestellt, da sie beim Start des Systems z. B. deutlich unter Raumtemperatur liegen.

Eine unabhängige Google-Studie[2][3], die über neun Monate ging, alle Hersteller und insgesamt 100.000 Festplatten umfasste, brachte 2006 folgendes Ergebnis: Unter Einbeziehung aller relevanten Parameter sind 64 % aller Ausfälle mit S.M.A.R.T. vorhersagbar. Dabei wurden alle anderen, also akustisch oder als Datenfehler bemerkbaren, Warnsignale ignoriert. Beim übrigen Drittel aller Ausfälle meldete sich die Festplatte selbst fälschlicherweise als problemfrei.

Die Beanspruchung der Festplatte hatte dabei einen weit geringeren Einfluss auf ihre Haltbarkeit als bisher angenommen. Übersteht ein Laufwerk das erste Jahr, spielt der Leerlaufanteil bis zu seinem turnusmäßigen Austausch nach vier Jahren keine Rolle mehr. Nur im ersten und nach dem vierten Jahr verdoppelt permanentes Lesen und Schreiben die Ausfallrate.

Geschichte[Bearbeiten | Quelltext bearbeiten]

1992 erkannte IBM, dass mit zunehmender Verbreitung von PCs in Unternehmen ebenso das in sie gesetzte Vertrauen stieg. Ausfälle wurden zunehmend zu einem finanziellen Problem, dem man mit PFA (Predictive Failure Analysis) begegnen wollte. IBM-Festplatten mit diesem System teilten dem Computer jegliche Parameteränderungen mit, damit dessen Nutzer so rechtzeitig mit Austausch reagieren konnte. Etwas später wurde durch Compaq IntelliSafe vorgestellt. Dieses filtert Irrelevantes und meldet der mitlaufenden Software nur die bedrohlichen Änderungen und Sollwerte. Seagate, Quantum und Conner waren an der Entwicklung beteiligt und passten es an ihre Produkte an; Compaq selbst fertigte keine Festplatten.
Das Potenzial ahnend und mit einem Industriestandard vor Augen, wurde die Offenlegung des Systems durch Compaq und insbesondere Seagate forciert. Zusammen mit Conner, Quantum, Western Digital und dann auch IBM entstand eine Fusion der beiden Ansätze unter dem Namen S.M.A.R.T.

Seit 1996 und dem Start des ATA-3-Standards, respektive SCSI-3 vier Jahre zuvor, gehört es beinahe ausnahmslos zur Standardausstattung einer Festplatte.

Die Spezifikation für die S.M.A.R.T.-Parameter wurde jedoch vor der Verabschiedung des ATA-3-Standards wieder entfernt (siehe Weblinks). Daher sind weder die Bedeutung der gespeicherten Werte noch deren Skalierung festgeschrieben (zu letzterem siehe auch Übliche Parameter). Nur ihr Speicherort ist offiziell standardisiert. So gibt es strenggenommen auch laut ATA-7-Standard keine Möglichkeit, beispielsweise die Temperatur einer Platte auszulesen. Praktisch alle erhältlichen Platten halten aber das Datenformat aus dem ATA-3-Entwurf ein. Ein auslesendes Programm ergänzt zur besseren Verständlichkeit noch zu jeder Parameter-ID eine Bezeichnung wie „Seek Error Rate“. Über die Jahre entstand so ein verlässlicher De-facto-Standard.

Solid-State-Drives (SSDs) benötigen systembedingt viele der bisherigen Prüfpunkte nicht mehr, dafür aber andere, neue. Hierfür fehlt jedoch bislang eine Abstimmung zwischen den SSD-Controller-Herstellern. Im Ergebnis wurden teilweise neue Parameter-IDs ergänzt, mitunter aber auch bestehende IDs einfach mit einer neuen Bedeutung versehen. Daraus entstehen Fehlinterpretationen in allen S.M.A.R.T.-Programmen, welche noch nicht die Bedeutung in den neuen Laufwerken kennen.[4]

Eine Kurzauswertung wichtiger S.M.A.R.T.-Parameter ist zudem allerdings auch in den meisten BIOS-Versionen enthalten, so dass beim Anschalten des Computers Warnmeldungen zu defekten SSDs erscheinen können. In diesem Fall ist eine Abschaltung der S.M.A.R.T.-Selftest-Funktion im BIOS empfehlenswert und eine manuelle Prüfung mit einem aktuellen Programm im Betriebssystem anzuraten (siehe S.M.A.R.T.-Programme im Vergleich).

Variationen nach Anschluss[Bearbeiten | Quelltext bearbeiten]

Die Umsetzung des S.M.A.R.T.-Standards unterscheidet sich je nach dem Festplattenanschluss im PC. Davon gibt es zwei: ATA- und SCSI-Standard. Beide kennen den HEALTH STATUS. Dabei gibt die Firmware des Laufwerks an, ob es sich als „okay“ oder als „problematisch“ einstuft. Beide Standards unterstützen auch das Auslesen der Temperatur und mehrere Varianten von Selbsttests und Logbüchern.

Bei ATA-Festplatten können zusätzlich über eine mitlaufende Software zahlreiche Werte und ihre Grenzen abgefragt werden. So kann die Software oder der Nutzer genauer einstufen, ob und warum ein Fehler auftreten wird. Diese Parameter sind allerdings nicht genau standardisiert und unterscheiden sich in Umfang und Interpretation, auch zwischen Modellen eines Herstellers.

Die Kommandos und Datenformate für alle diese Funktionen sind allerdings bei ATA und SCSI völlig unterschiedlich implementiert.

Auf dem USB-Anschluss werden im Grunde SCSI-Kommandos übertragen. Die über USB angeschlossenen Festplatten sind aber fast ausnahmslos keine SCSI-, sondern (S)ATA-Platten. Im Zuge der Einführung der USB 3.0 Schnittstelle wurde das Protokoll USB Attached SCSI (UAS) eingeführt, dieses kann auch auf USB 2.0 mit reduzierter Geschwindigkeit verwendet werden, welches im Gegensatz zu den technisch einfacheren Bulk-Transfer der USB-Speichersticks eine Tunnelung der ATA-Kommandos über den USB-Bus ermöglicht und die SMART-Abfragen über USB ermöglicht. Chip-Hersteller wie Cypress, JMicron oder SunPlusIT verwenden herstellerspezifische Kommandos. Einige Programme beherrschen diese Kommandos (siehe Abschnitt S.M.A.R.T.-Programme im Vergleich). Daneben gibt es auch USB-SATA-Bridges, die den herstellerunabhängigen SCSI/ATA Translation-Standard unterstützen.[5]

Der FireWire-Anschluss – besonders bei Apple-Computern üblich – ermöglicht die Übermittlung nativ, Mac OS X nutzt das aber nicht.

Per eSATA angeschlossene Laufwerke sind wie ihre internen SATA-Pendants problemlos auslesbar.

Über Serial Attached SCSI (SAS) angeschlossene Serial-ATA-Platten können geprüft werden, wenn die entsprechenden SAT-Kommandos zur Verfügung stehen.

Für Bandlaufwerke gibt es zu S.M.A.R.T. analoge Funktionen mit der Bezeichnung TapeAlert. Sie dienen zur Warnung bei abgenutzten Bändern.

Auswertung[Bearbeiten | Quelltext bearbeiten]

Übliche Parameter[Bearbeiten | Quelltext bearbeiten]

Jeder Wert wird zuerst als Raw-Data gespeichert. Dieser wird dann zum besseren Verständnis auf einer Werteskala von 0 bis 100, 200 oder 255 einsortiert. Die unterschiedlichen Skalen dienen dabei einer feineren Abstufung, wo der Hersteller sie für sinnvoll erachtet. Mit dem Skalenmaximum startend, nähert sich der Wert (value) bei Fehlern oder zunehmendem Alter null. Häufig ist die kritische Grenze (Threshold) aber schon weit darüber angesiedelt.[6]

Nachstehende Tabelle zeigt die einzelnen Parameter und die Bewertung der jeweiligen Raw-Werte auf (nicht zu verwechseln mit den Values der Werteskala):

Legende der Raw-Werte
A
Ausfallskritisch
Ausfallsrelevanter Parameter. So vorhanden, können damit mögliche Ausfälle prognostiziert werden.
I Informierend, für die Ausfallsprognose wenig bis nicht relevanter Parameter
höher, besser
Je höher der Raw-Wert, desto besser
niedriger, besser
Je niedriger der Raw-Wert, desto besser
ID Hex Parametername (Englisch) Parametername (Deutsch) A I Besser Beschreibung
01 0x01 (Raw) Read Error Rate Lesefehlerrate (roh)
niedriger, besser
  • Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen.
  • Deutet auf Problem mit der Plattenoberfläche hin.
  • Einige Laufwerke haben hier sehr hohe Raw-Werte, die auch zwischen Modellen eines Herstellers nicht vergleichbar sind. Bei neueren Seagate-Laufwerken ist er fälschlicherweise identisch mit dem bei Hardware ECC Recovered. Ausfallrelevant sind nur die Skalenwerte.
02 0x02 Throughput Performance Durchsatz
höher, besser
  • allgemeiner Datendurchsatz bzw. Effizienz der Festplatte
  • Deutet stark auf bremsende Probleme im Laufwerk hin.
03 0x03 Spin Up Time Beschleunigungszeit
niedriger, besser
  • Durchschnitt der Startzeit in (Milli-)Sekunden.
  • Deutet auf Probleme beim Motor oder den Plattenlagern hin.
  • Bei fabrikneuen Maxtor- und Quantum-Laufwerken kam es hier im ersten Monat häufig zu Falschalarmen.
04 0x04 Start/Stop Count Start/Stop-Vorgänge ja
niedriger, besser
  • Anzahl der Start- bzw. Stop-Vorgänge eines Laufwerkes (auch Standby)
  • Deutet auf Abnutzung hin, da dieser Vorgang Festplatten am stärksten belastet.
05 0x05 Reallocated Sectors Count wiederzugewiesene Sektoren
Ausfallskritisch
niedriger, besser
  • Anzahl der verbrauchten Reservesektoren.
  • Deutet auf Oberflächenprobleme hin, da nur dann automatisch ein Reservesektor einen bisher verwendeten ersetzt.
  • Ist dieser RAW-Zähler ungleich null, ist die Wahrscheinlichkeit für einen Ausfall verfünffacht. Meist folgt dieser dem ersten „Reallocation Event“ binnen eines halben Jahres.
07 0x07 Seek Error Rate Suchfehlerrate
niedriger, besser
  • Nicht korrigierbare Fehler beim Lesen von der Festplatte, führt zum erneuten Einlesen.
  • Deutet auf Positionierungsproblem der Schreib-Lese-Einheit hin.
  • Auch vom Hersteller unerklärt, tragen hier einige fabrikneue Seagate-Laufwerke Skalenwerte weit unter 100 ein.[7]
09 0x09 Power On Hours Count Anzahl der Betriebsstunden ja
niedriger, besser
  • Laufleistung in Stunden oder Sekunden (inklusive Standby)
  • Deutet auf Abnutzung hin, sagt aber nichts über Nutzungsumstände in dieser Zeit aus.
  • Bei einigen Modellen von Maxtor, z. B. bei der Maxtor DiamondMax 10 6L250S0, sind es Minuten.
10 0x0A Spin Retry Count Anlaufwiederholungen,
nur bei HDDs relevant
Ausfallskritisch
niedriger, besser
  • Anzahl der Anlaufversuche zum Hochdrehen der Festplatten auf Nenndrehzahl. Ein ansteigender Wert deutet auf mechanische Probleme im Antrieb der Festplatte hin.
12 0x0C Power Cycle Count Anzahl der Einschaltungen ja
niedriger, besser
  • Gibt an, wie oft das Laufwerk ein- und ausgeschaltet worden ist.
184 0xB8 End-To-End error Ende-zu-Ende Fehler
Ausfallskritisch
niedriger, besser
  • Steigende Werte zeigen Parityfehler zwischen den Speichermedium und Laufwerkcontroller an.
187 0xBB Reported uncorrectable Error Gemeldete unkorrigierbare Fehler
Ausfallskritisch
niedriger, besser
188 0xBC Command Timeout Kommandos welche nicht rechtzeitig ausgeführt werden konnten
Ausfallskritisch
niedriger, besser
  • Anzahl der Kommandoabbrüche wegen Zeitüberschreitung
193 0xC1 Load Cycle Count

bzw.

Load/Unload Cycle Count

Parkvorgänge ja
niedriger, besser
  • Parkvorgänge der Schreib-Lese-Einheit auf die neben den Platten befindliche Plastikrampe.
  • Meist nur bei Notebooklaufwerken. Deutet auf Abnutzung hin; vorgesehen sind rund 300.000 – der Raw-Wert zeigt die bisherigen.
  • Geparkt wird die Schreib-Lese-Einheit beim Ausschalten oder nach rund 10 s Leerlauf. Das erzeugt ein mitunter irritierendes Geräusch. Kommt das Notebook zu Fall, stößt so die Schreib-Lese-Einheit nicht mehr auf die Magnetscheiben. Die Stoßfestigkeit wird auf rund 1000 g verdreifacht. Auch das An- bzw. Ausschalten ist schonender, da die Einheit nicht schleifend auf einen Sonderbereich der Platten abgesenkt wird („Landing Zone“).[8]
194 0xC2 Drive Temperature Festplatten-Temperatur
niedriger, besser
  • Temperatur des Laufwerkes in °C
  • Da manche Laufwerke auch Maximal- und Minimalwert speichern, ist eine frühere Unterkühlung oder Überhitzung während des Betriebes erkennbar. Der als raw-value angegebene Wert enthält dann alle drei Zahlen hintereinander.
  • Hohe Temperaturen (ab 40 °C) haben erst nach drei Jahren Auswirkung. In diesem Jahr verdoppeln sie die Ausfallwahrscheinlichkeit. Danach verlieren sie ihre Bedeutung wieder. Über alle Alter gemittelt, sind Temperaturen unter 25 °C weit gefährlicher als solche über 40 °C. 20 °C verdoppeln, 15 °C verdreifachen die Ausfallrate; gemessen wurde dabei bis 52 °C. Manche Hersteller verwenden ungenaue oder falsch platzierte Sensoren.[3]
195 0xC3 Hardware ECC Recovered gerettete Bitfehler
niedriger, besser
  • korrigierte Bitfehler beim Lesen
  • Kann auf Problem mit der Plattenoberfläche hindeuten.
  • Die hohe Datendichte heutiger Festplatten hat zur Folge, dass beim Lesen die Fehlerkorrektur zwangsläufig anschlägt.[Beleg?] Auch sehr hohe Werte hier sind also kein Grund zur Beunruhigung.
  • Samsung-Laufwerke der P80-Serie tragen hier fälschlicherweise oft sehr niedrige Skalenwerte ein. Generell sind sehr hohe Raw-Werte üblich, die wegen Wechseln von einer Technik auf eine neuere (engl.: „technology change“) auch zwischen Modellen desselben Herstellers nicht vergleichbar sind. Sie steigen bei Lesevorgängen, da nur dann eine Fehlerkorrektur stattfindet. Ausfallrelevant sind nur die Skalenwerte. Selten werden die Werte auch „ECC On-the-fly“ genannt.
196 0xC4 Reallocation Event Count
Ausfallskritisch
niedriger, besser
  • Anzahl bisher durchgeführten erfolgreichen und fehlgeschlagenen Neuzuweisungen der Sektorposition als Folge von Lesefehlern von defekten Sektoren.
197 0xC5 Current Pending Sector Count Aktuell ausstehende Sektoren
Ausfallskritisch
niedriger, besser
  • Anzahl der aufgrund von Lesefehlern wartenden Sektoren auf Zuweisung einer neuen Sektorposition
198 0xC6 Uncorrectable Sector Count Nicht korrigierbare Sektoren
Ausfallskritisch
niedriger, besser
  • Anzahl bisheriger nicht korrigierbarer Sektorfehler bei Schreibe- oder Leseoperationen.
199 0xC7 Ultra DMA CRC Error Count DMA-CRC-Fehler ja
niedriger, besser
  • Anzahl der aufgetretenen CRC-Fehler
  • Ursache können defekte Kabel, verschmutzte Kontakte, Übertaktung oder fehlerhafte Festplattentreiber sein. Die Übertragung wird in Stufen immer langsamer wiederholt. Misslingt dies, wird der Zugriff auf die Festplatte gesperrt.
201 0xC9 Soft Read Error Rate
Ausfallskritisch
niedriger, besser
  • Anzahl der nicht per Software korrigierbaren Lesefehler.

Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive. Vollständige Listen finden sich im Literatur-Abschnitt der Weblinks.

Beispiel[Bearbeiten | Quelltext bearbeiten]

Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB-Festplatte, angeschlossen über Serial-ATA und ausgelesen mit den smartmontools.

Parameter-ID Parametername Value (normalisierter aktueller Messwert) Worst (bisher schlechtester Wert) Threshold (Grenzwert – Value sollte größer sein) Typ (maximaler Messwert kurz vor dem Ausfall) Updated (Echtzeit- oder Messwert nach einem Selbsttest) RAW Value (eigentlicher Messwert) Bemerkung
2 Throughput Performance 100 100 050 Pre-fail Offline 0  
3 Spin Up Time 118 118 024 Pre-fail Always 294 Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden.
4 Start Stop Count 100 100 000 Old age Always 772 772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standby-Starts.
5 Reallocated Sector Count 100 100 005 Pre-fail Always 55 55 Sektoren wurden wegen Defekts gegen Reservesektoren ausgetauscht. Das Laufwerk schätzt das aber noch als problemlos ein (der Value ist nach wie vor 100) – vielleicht zu Unrecht.
7 Seek Error Rate 100 100 067 Pre-fail Always 0 Bisher gab es keine Schreib-/Lesefehler.
9 Power On Hours 100 100 000 Old age Always 1775 Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Das umfasst auch Standbyphasen, in denen die Platten stillstanden. Wenn das Auswertungsprogramm das Festplattenmodell nicht kennt, muss man selbst einschätzen, ob der Wert Stunden, Minuten oder Sekunden darstellt.
10 Spin Retry Count 100 100 060 Pre-fail Always 0 Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an.
12 Power Cycle Count 100 100 000 Old age Always 745 Bisher wurde der PC mit dieser Festplatte 745-mal an- und ausgeschaltet.
194 Temperature 161 161 000 Old age Always 34
+(10·216 + 49·232)
Aktuelle Temperatur wäre hier 34 °C. Bisherige Lebensmaxima des Laufwerkes waren 10 °C bzw. 49 °C. Value ist daher von 200 auf 161 gesunken.
199 UDMA CRC Error Count 200 253 000 Old age Always 730 Bisher gab es 730 Übertragungsfehler zur Hauptplatine („mainboard“). Ursache ist entweder ein fehlerhafter Festplatten-Controller, ein defektes Anschlusskabel oder ein Wackelkontakt.
Value ist ein normalisierter Messwert, der zumeist rückwärts zählt (je niedriger, desto schlechter).
Worst der bisher schlechteste Wert.
Threshold die Grenze, unter die der Wert nicht fallen darf.
Typ steht für die Bedeutung des Parameters: „Pre-fail“ ist eine Warnung vor einem baldigen Ausfall, während „Old age“ bedeutet, dass es sich allgemein um fortschreitende Alterung handelt (Die aktuelle Temperatur fällt nicht unbedingt in eine der beiden Kategorien).
Updated zeigt an, ob der Wert permanent (always) oder erst durch einen Selbsttest vom Typ „Offline data collection“ aktualisiert wird.
RAW Value ist der eigentliche Messwert, also etwa die gemessene Temperatur oder die Zahl der Fehler.

Auswertung: Laut festplatteneigener Einschätzung ist dieses Laufwerk völlig in Ordnung. Nirgends wurde der Grenzwert annähernd erreicht. Nur die 55 ausgewechselten Sektoren sind laut einer Google-Studie bedenklich. Dieser Wert sollte daher im Blick behalten werden. Erhöht sich nach dem vorgenommenen Kabeltausch aber der „UDMA CRC Error Count“ nicht weiter und wird die Kühlung so verbessert, dass etwa 45 °C (Temperature) nicht mehr überschritten werden, ist das Laufwerk eigentlich problemlos weiter verwendbar.

Selbsttest und Fehler-Logbuch[Bearbeiten | Quelltext bearbeiten]

Neben der laufenden Protokollierung obiger Parameter gibt es noch weitere Tests. Einige Hersteller starten diese periodisch im Leerlauf, andere überlassen das dem Nutzer. Das kann er mit manchen der angebotenen Programme durchführen. Was schließlich getestet wird, ist ebenso herstellerbestimmt. Standard ist ein Kurztest mit Prüfung aller Parameter, gefolgt von Stichproben der Lesbarkeit der einzelnen Scheiben. Die Langversion tauscht die Stichprobe gegen eine Komplettüberprüfung.

ATA-6 ergänzt zwei weitere Varianten. Die eine empfiehlt sich nach einem Laufwerkstransport (genannt Conveyance – ähnlich dem Kurztest), die andere ermöglicht die Prüfung selbst wählbarer Bereiche des Laufwerkes (Selective – ähnlich dem Langtest).

Seit 1999 und dem ATA-5-Standard werden aufgetretene Fehler nicht nur in die Parameterwerte eingerechnet (Ergebnis etwa: „Fehlerrate: hoch“), sondern ausführlich protokolliert. Notiert werden dabei die Fehler, die Zeit seit dem letzten Anschalten und die fünf zuvor ausgeführten Schritte. Für die Ergebnisse der obigen Selbsttests gibt es sogar eine eigene Tabelle. Generell gelten hier nur aktuelle Fehlerhäufungen als bedenklich.

Unterstützt die Festplatte das Erneuern ihrer Firmware, wird beim Neuschreiben derselben (gleich, mit welcher Version) das Fehlerprotokoll gelöscht. Die Parameterwerte bleiben meist erhalten.

S.M.A.R.T.-Programme im Vergleich[Bearbeiten | Quelltext bearbeiten]

In der folgenden Tabelle sind bekannte Programme zum Auslesen der S.M.A.R.T.-Daten aufgeführt.

Programm­name Betriebs­system(e) Preis Laufzeit
der Demo­version
Zielgruppe Benutzer­oberfläche Anschluss RAID-Controller-Unterstützung Korrekte Interpretation von SSDs Anzeige des Fehler­protokolls Starten der Selbst­tests Ausfall­vorhersage Benach­richtigung bei Benach­richtigung per Anbieter Bemerkungen
Argus Monitor Windows 14,95 € 30 Tage Einsteiger bis Fortgeschrittene grafisch (S)ATA, USB ja (nicht bei allen) ja nein nein ja wählbaren Parameteränderungen, Grenzwert, Temperatur Fenster, Ton, E-Mail, beliebiges Kommando ausführen ArgusMonitor Zusätzlich grafische Anzeige von CPU und Grafikkartentemperatur sowie CPU Kernfrequenz und Intel 'Turbo Boost' Status; Anzeige und Regelung von Mainboard- und GPU-Lüfter
smartmontools Windows (nativ oder Cygwin),
Linux,
Darwin (Mac OS X),
Free/Open/NetBSD,
Solaris,
OS/2,
QNX
Open Source - Profianwender Kommandozeile,
optional Daemon bzw. Dienst, grafisches Frontend
(S)ATA, SCSI, SAT, USB 3ware (Linux, FreeBSD, Windows),
Compaq/HP (Linux, FreeBSD),
HighPoint (Linux),
Intel Matrix RAID (Windows)
ja ja ja (auch zeitgesteuert) nein wählbaren Parameteränderungen, Grenzwert, Temperatur Fenster (nur Windows), E-Mail, Systemprotokoll, beliebiges Kommando ausführen smartmontools GSmartControl Anleitung
HDAT2 DOS Freeware - Profianwender Textmenü (S)ATA, SCSI, USB, FireWire (einige) ja (nicht bei allen) - ja ja nein - - Lubomir Cabla Bietet Einstellung von AAM und weiterer Parameter, sowie Oberflächentests.
DriveSitter Windows ab 29,69 $ 30 Tage Fortgeschrittene grafisch (S)ATA - ? ja ja ja wählbaren Parameteränderungen, Grenzwert, Temperatur Fenster, Ton, E-Mail, Netzwerknachricht, Systemprotokoll, beliebiges Kommando ausführen Oliver Marr Hoch skalierbar, schaltet auf Wunsch bei kritischer Temperatur in Ruhezustand.
EASIS Drive Check Windows Freeware / Pro €19.- - Fortgeschrittene grafisch (S)ATA, USB, Oberflächentest alle - ? ja nein nein Parameteränderungen Fenster, E-Mail EASIS Kann Oberflächentests durchführen um defekte Sektoren aufzufinden
HDD Health Windows Freeware - Einsteiger bis Fortgeschrittene grafisch (S)ATA - - ja (in neuer Version) ja (in neuer Version) ja jeder Parameteränderung, Temperatur Fenster, Ton, E-Mail, Netzwerknachricht (E-Mail und Netzwerk nur in kommerzieller Version) PANTERASoft
Active SMART Windows ab 18,46 € 21 Tage Einsteiger bis Fortgeschrittene grafisch (S)ATA, SCSI, USB angekündigt - nein nein ja Grenzwert, Temperatur Fenster, Ton, E-Mail, Netzwerknachricht Ariolic ATA / SCSI / USB Schaltet auf Wunsch bei kritischer Temperatur in Ruhezustand.
SpeedFan Windows Freeware - Einsteiger bis Fortgeschrittene grafisch (S)ATA, SCSI - ja (nicht bei allen) nein ja ja Grenzwert, Temperatur Systembenachrichtigung, Ton, E-Mail, beliebiges Kommando ausführen Alfredo Milani Comparetti Bietet Online-Analyse des Laufwerks [1], überwacht PC-Temperaturen
SMARTReporter Mac OS X Open Source / Pro 4,49 € - Einsteiger grafisch (S)ATA - ja (basiert auf smartmontools) ja ja nein Grenzwert Fenster, E-Mail, beliebiges Kommando ausführen Julian Mayer
HDTune Windows Freeware HD Tune Pro 24.95 EUR - Einsteiger bis Fortgeschrittene grafisch (S)ATA, USB (die meisten) - - nein nein nein - - EFD Software Führt Benchmark und Oberflächentests durch; Health für ext. HDD nur in der Pro-Version
Norton System Doctor Windows proprietär - Einsteiger grafisch (S)ATA, SCSI, USB ? ? nein nein nein Grenzwert (für jeden Datenträger einzeln) Taskleisten-Symbol, Ton, administrative Nachricht Symantec weblink Lässt sich für jeden Datenträger einzeln konfigurieren, Interface für Disc Doktor/chkdsk: Oberflächentest, Kompletttest bei Neustart
CrystalDiskInfo Windows Open Source - Einsteiger bis Fortgeschrittene grafisch (S)ATA, USB (einige) Intel Matrix RAID ja ja nein[9] ja Grenzwert, Temperatur (für jeden Datenträger einzeln) Taskleisten-Symbol, Ton, E-Mail, Ereignisprotokoll Crystal Dew World Bietet Einstellung von AAM und weiteren Parametern
Acronis® Drive Monitor™ Windows Freeware / proprietär - Einsteiger bis Fortgeschrittene grafisch (S)ATA, USB (die meisten), Software-RAID-Controller (viele) Software-RAID-Controller JA, Hardware-Controller-Support angekündigt ? ja ? ja Festplattenproblemen, Temperatur, "kritischen Ereignissen", Backup-Meldungen Taskleisten-Symbol, Alarmmeldung, E-Mail Acronis Handbuch
Samsung SSD Magician Windows proprietär - Einsteiger bis Fortgeschrittene grafisch (S)ATA - ja ja ? ? ? -
DHE Drive Info Windows Freeware - Einsteiger bis Fortgeschrittene grafisch (S)ATA, SCSI, USB experimentell ja ja ja ? Grenzwert, Temperatur Fenster Dirk Hauschild portable, keine Installation nötig

Auslesen von Festplatten an RAID-Controllern[Bearbeiten | Quelltext bearbeiten]

  • Nur der Controller-Hersteller hat die nötigen Informationen zum Auslesen des S.M.A.R.T.-Status im RAID-Verbund. Also muss er diesen per API-Funktion mit seinem Treiber zur Verfügung stellen. Das tun jedoch nicht alle – und wenn, dann oft herstellerspezifisch und nur für ausgewählte Modelle. Von welchen Herstellern das Programm die Funktionen kennt, wird in der Tabelle gewertet.
  • Ein direktes Ansprechen des Controllers ohne Verwendung der Treiberfunktionen ist erfolgreicher, aber auch potentiell instabil und daher nur unter DOS akzeptabel.
  • Wird in den Spezifikationen des Controllers eine S.M.A.R.T-Unterstützung genannt, ist das häufig nur eine Controller-interne. Der Treiber reicht die Informationen dann nicht an Programme weiter, manche auch nur die eines Laufwerks.
  • Immer auslesbar sind Festplatten in sogenannten Software-RAIDs (d. h. Verbunde, die vom Betriebssystem verwaltet werden) und jene, die an RAID-Controllern als einzelne Laufwerke statt im Verbund eingerichtet sind. Daher wird das nicht gewertet.

Quellen[Bearbeiten | Quelltext bearbeiten]

  1. Yves Jeanrenaud: TEAMGROUP veröffentlicht microSD-Speicherkarten mit S.M.A.R.T. 22. September 2023, abgerufen am 22. September 2023 (deutsch).
  2. Heise-Meldung vom 16. Februar 2007
  3. a b http://research.google.com/archive/disk_failures.pdf
  4. (Memento des Originals vom 21. März 2014 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.ocztechnologyforum.com Beispiel einer Umwidmung eines bestehenden S.M.A.R.T.-Attributs bei Indilinx-Controllern
  5. Einige USB-Geräte mit S.M.A.R.T.-Unterstützung (smartmontools-Wiki)
  6. Michael Schmelzle: Diese S.M.A.R.T.-Daten sind wichtig. IDG Tech Media GmbH, 30. Oktober 2013, abgerufen am 5. April 2017.
  7. http://forums.storagereview.net/index.php?showtopic=20731
  8. Bild: Schreib-Lesekopf in Parkposition
  9. Ticket #20275: Add support for starting tests

Weblinks[Bearbeiten | Quelltext bearbeiten]