Go to Top

Wenn der Rebuild schief geht

Was passiert, wenn ein RAID-Rebuild schief geht – und was kann man tun, um ein solches Desaster zu verhindern? Um diese Frage zu beantworten muss man verstehen, wie Daten auf einem RAID gespeichert werden und was passiert, wenn eine Festplatte abschmiert und ein Rebuild startet. Als Beispiel nehmen wir ein Windows NTFS Dateisystem mit einem Vier-Platten RAID-5-Array.
Windows teilt den Festplatteninhalt in Metadaten und Nutzerdaten auf. In untenstehender Grafik sehen wir vereinfacht ein zusammenhängendes NTFS-Laufwerk auf einer einzelnen Festplatte. Metadaten sind blau gekennzeichnet, Nutzerdaten grün.

01

Nun wollen wir unsere Daten durch einen RAID-5-Array schützen. Um zu verstehen, wie Daten auf diese Weise geschützt werden können, müssen wir den Array ein wenig näher ansehen. Beim Aufbau eines RAID-5-Arrays zerteilt der RAID-Controller die Daten in Datensegmente, die „stripes“ (Streifen) genannt werden, wobei sich jeder „stripe“ über alle Platten des Arrays zieht. Der Controller erstellt von den Datensegmenten Prüfsummen (Paritäten) und schreibt sie getrennt von den Daten auf eine benachbarte Festplatte. Einen jungfräulichen RAID-5-Array sehen Sie in untenstehender Grafik. „Strips“ sind gelb eingefärbt, Paritäten orange.

02

Nach der Formatierung sind die Daten des NTFS-Laufwerks auf alle Platten des Arrays verteilt.

03

Wenn nun eine Festplatte ausfällt, kann der Controller die Information, die in den Paritäten gespeichert sind, nutzen, um die Information der fehlenden Platte zu rekonstruieren.

04

In unserem Beispiel versagt HDD 1, die erste Festplatte. Der Controller benutzt die Prüfsumme jedes einzelnen Stripes um die fehlenden Daten wiederherzustellen. Bei Stripe 1 werden die Daten von HDD 2 und HDD 3 und die Paritätsdaten von HDD 4 benutzt, um die fehlenden Metadaten von HDD 1 zu rekonstruieren. Bei Stripe 2 würde der Controller die Daten von HDD 2 und HDD 4 sowie die Paritätsdaten von HDD 3 verwenden, um die fehlenden Daten von HDD 1 zu ergänzen.

05

Wenn ein RAID-System wie vorgesehen arbeitet, werden die gespeicherten Daten effektiv geschützt. Doch es gibt Szenarien, bei denen Daten zerstört werden können. In der untenstehenden Grafik sehen wir wieder eine fehlerhafte Platte im RAID. Normalerweise würde der Controller wie im obenstehenden Beispiel vorgehen. Es kann jedoch passieren, dass das RAID falsch aufgebaut wird und die Paritätsdaten anstatt des Inhalts der Festplatte wiederhergestellt werden.

06

Im obigen Beispiel wird die Parität in Stripe 1 mit den Daten von HDD 2 und HDD 3 nicht aber von HDD 1 wiederhergestellt.
Wie kann man sich vor solchem Unbill schützen? Am besten immer noch mit den guten alten Backups. Allerdings sollten diese immer wieder geprüft werden, um im Schadensfall auch ein funktionsfähiges Backup zur Hand zu haben. Wenn der Array in den „degraded mode“ (=eingeschränkter Betriebszustand) fällt, sollte man alle Arbeiten beenden und sofort ein Backup ziehen, da es sein kann, dass eine zweite Platte ausfällt. Dann ist der RAID nicht mehr funktionsfähig, was einen vollständigen Datenverlust zur Folge haben kann. Falls kein Backup möglich ist, sollte eine Kopie oder Spiegelung der Platteninhalte angestoßen werden, bevor der Array wiederhergestellt wird.
Sollte weder das Backup noch die Kopie in Ordnung sein, empfiehlt es sich, mit einem professionellen Datenrettungsunternehmen Kontakt aufzunehmen. Ein solches Unternehmen benötigt normalerweise die Festplatten bei sich im Hause, da Arbeiten an offenen Festplatten nur im Reinraum durchgeführt werden können. Zuerst wird ein Image des Inhalts der Platten angefertigt – auch das der funktionsgestörten oder -unfähigen Platte. Die Datenretter werden dann versuchen, den Array wiederherzustellen, die Hierarchie der logischen Laufwerke zu korrigieren, etwaige physische Schäden zu reparieren und dann die Daten wiederherzustellen.
Seien Sie vorsichtig, wenn eine Firma den RAID-Controller oder andere Hardware anfordert, die sie bei der Datenrettung unterstützen soll. Wenn Sie kein einzigartiges System benutzen könnte das ein Zeichen sein, dass das Datenrettungsunternehmen nicht die nötige Erfahrung mitbringt und Ihre Daten somit möglicherweise einem unnötigen Risiko aussetzt.