Herausforderung Datenrettung im Rechenzentrum

Lange Zeit geht alles gut und dann ist vieles zu spät: Wasser, das über das Dach oder durch die Klimaanlage in den Serverraum nicht nur tropft, sondern regelrecht fließt, eine Brandschutzanlage, die plötzlich losgeht, schlampige Wartung von Servern und Storages oder schlicht und einfach Überforderung der zuständigen Mitarbeiter – die Liste, was alles zu einem Ausfall eines Rechenzentrums und dem damit verbundenen Datenverlust führen kann, ist lang und umfangreich. Ist das Kind dann in den Brunnen gefallen,  ist die von uns meistgehörte Aussage der betroffenen IT-Administratoren und Rechenzentren-Leiter: „ Ich war mir doch so sicher, dass es bei uns nie zu einem Datenverlust kommt“.

Aber die Praxis zeigt: Täglich erreichen uns eine Vielzahl von Datenrettungsaufträgen, die eigentlich vermeidbar gewesen wären, hätte man sich bloß frühzeitig und intensiv mit der notwendigen Prävention und mit Strategien für das richtige Verhalten beim Worst-Case  auseinandergesetzt. Denn was immer wieder auffällt ist, dass in vielen Fällen menschliche Fehler zwar nicht unbedingt zum eigentlichen Ausfall der Hardware führten, dafür aber im weiteren Verlauf konsequent zum Datenverlust. Oftmals versuchen die betroffenen Mitarbeiter unter Stress noch etwas auf Teufel komm raus zu retten, wenn sie eigentlich die Finger davon lassen sollten.
Denn eine selbständige Datenrettung wird bei zunehmender Komplexität der miteinander verzahnten IT-Systeme und Applikationen für Administratoren immer schwieriger oder nahezu unmöglich. Neben unterschiedlicher Hardware verschiedener namhafter Hersteller stellen die zwei heutzutage am häufigsten genutzten Technologien in Rechenzentren nicht nur die Mitarbeiter der IT-Abteilungen, sondern später auch professionelle Datenrettungsspezialisten vor besondere Herausforderungen: die RAID-Speicherung  sowie die Virtualisierung, ob im eigenen Rechenzentrum oder bei einem Cloud-Anbieter.

RAID-Systeme können auch ausfallen

Bei der Datenspeicherung auf Festplatten-basierten Server- oder Storage-Systemen hat sich seit längerem der Einsatz von RAID-Systemen durchgesetzt. Egal ob RAID 0, 1, 5 oder 6, der Einsatz der Technologie hat neben seinen unbestreitbaren Vorteilen der  verbesserte Ausfallsicherheit und Auslastung des Speicherplatzes – auch seine Tücken. Nämlich dann, wenn das gesamte System doch mal ausfällt und wichtige unternehmenskritische Daten wiederhergestellt werden müssen. Das kann beispielsweise dann passieren, wenn ein RAID-Controller oder die immer populärer werdende rein Software-basierte Variante ausfällt, der Festplatten-Verbund nach einem Server-Neustart durch fehlerhafte Initialisierung „verloren“ geht oder mehrere Festplatten gleichzeitig ausfallen. Diese Fälle  kommen nicht selten vor und der damit verbundene Aufwand, Dateien wiederherzustellen, ist alles andere als trivial.

Häufig werden von den Administratoren RAID-Recovery-Bordmittel zum falschen Zeitpunkt eingesetzt. So wird nach einem Plattenausfall das RAID versehentlich neu initialisiert, wo eigentlich ein Rebuild auf der Agenda stünde. Gefährlich ist die fehlerhafte Neuinitialisierung deshalb, weil die neue Parity einfach unter Missachtung der alten Parity neu geschrieben wird, teilweise in einer anderen Reihenfolge, anstatt aus den verbliebenen guten Festplatten die ausgefallene Festplatte auf einer neuen Ersatzfestplatte wieder aufzubauen. Denn unter einer Parity versteht man die sogenannte RAID-Fehlerkorrektur, mit der man den Inhalt einer ausgefallenen Festplatte wiederherstellen kann. Bei der Initialisierung werden die eigentlichen Nutzdatenbereiche zunächst überschrieben und die vorhandenen kostbaren Daten sind für immer verloren.

Virtuelle Systeme schützen nicht vor Datenverlust

Spannend wird es für Administratoren auch bei einem Ausfall einer oder mehrerer virtueller Systeme. Denn auch bei der Virtualisierung sind überwiegend RAIDs im Einsatz. Unabhängig von der Hardware verteilt diese Technologie die Informationen über viele Festplatten. Einzelfestplatten werden zu LUNs zusammengeschaltet und die Daten nach RAID Prinzipien darauf verteilt. Aber auch ein solcher hardwareunabhängiger RAID Verbund unterliegt dabei den allgemeinen Ausfallrisiken des RAID Prinzips. Diese Gefahr wird oft unterschätzt und Backups fehlen dann oder befinden sich bei heutigen Backup to Disk Varianten auf dem gleichen Array und stehen im Ernstfall ebenfalls nicht zur Verfügung.

Das Einsatzgebiet wird immer größer: So geht der neueste Trend dazu über auch Storage-Systeme zu virtualisieren.

Bei einem Virtual Storage System werden Applikationen oder Dateien, die in virtuellen Maschinen gespeichert wurden, in einem gemeinsamen geclusterten Shared Storage Datastore zusammengefasst. Jeder angebundene Hostrechner mit seinen Festplatten ist Teil dieses gemeinsamen Datastores. Um die Ausfallsicherheit zu erhöhen, lässt sich auf Virtual Storage Ebene einstellen, wie die einzelnen Hostrechner abgesichert werden sollen. Abhängig von der Anzahl der eingesetzten Hosts werden von dem Original-Host und seinen Daten auf anderen Hosts sowohl komplette Kopien als auch Verweise (sogenannte „Witness“) erstellt, aus denen sich bei einem Ausfall eines Hosts dieser wiederherstellen lässt. Dabei gilt: Je mehr Hosts vorhanden desto mehr Original-Hosts können ausfallen. Bei einem Datenverlust bedeutet das für unsere Datenrettungs-Ingenieure, dass sie sich neben den normalen virtuellen Maschinen und den darin eingebetteten Daten mit einer zusätzlichen Informationsebene beschäftigen müssen.

In einem konkreten Fall, den wir vor gut einem halben Jahr erfolgreich abgeschlossen haben, ging es um ein havariertes, fast brandneues, VSAN Storage System von VMware eines holländischen Kunden.  Erst ein Jahr auf dem Markt, erweitert VMware mit VSAN seine Virtualisierungslösung für Server, vSphere EXSi, um die Möglichkeit Storages zu organisieren und zu verwalten. Bei dieser speziellen Datenrettung war ein internationales Expertenteam von Kroll Ontrack nötig, um das VSAN System  –  bestehend aus 15 Festplatten und 3 SSD-Speichern – zu retten. Aufgrund des Ausfalls eines der SSD-Speicher versagten gleich drei Host-Rechner und mit ihnen das gesamte System. Die Folge: Vier große virtuelle Maschinen waren vorübergehend verloren. Mit der zusätzlichen VSAN-Storage-Virtualisierungsschicht wurde der Datenrettungsprozess für die Spezialisten nochmals komplizierter.

Um das defekte VSAN und die virtuellen Maschinen wiederherstellen zu können, wurde extra ein neues Software-Werkzeug entwickelt, um die zum Identifizieren und Zusammensetzen der Daten notwendigen Beschreibungen und Log-Files zu finden, zu verbinden und wiederherzustellen. Dadurch war es dann möglich Informationen darüber zu bekommen, in welcher Weise die virtuellen Maschinen im Datastore von VSAN gespeichert und auf den betroffenen Festplatten verteilt wurden.

Sind Cloud-Systeme sicherer?

Die Vorteile, auf die bei einem externen Anbieter gehosteten Programme oder Daten bei Bedarf zugreifen zu können und so Kosten bei der eigenen Hardware, Software und eventuell bei dem Personal sparen zu können, sind unbestreitbar. So ist es denkbar auch Teile eines Rechenzentrums auszulagern. Doch was passiert, wenn es zu einem Ausfall und Datenverlust bei dem Cloud-Anbieter kommt? Die Antwort ist einfach: Rein technisch dasselbe, als wäre es im eigenen Unternehmen passiert. Auch hier muss ein spezialisierter Dienstleister zu Rate gezogen werden, der beim Ausfall eines RAID und/oder eines virtuellen Systems sowohl die Daten als auch die Strukturen wieder rekonstruieren kann. Wichtig ist nur, welche Vereinbarungen man mit seinem Cloud-Anbieter für den Fall eines Datenverlusts getroffen hat. Manchmal stellen Firmen überrascht fest, dass einige Anbieter keine Möglichkeiten dafür anbieten.

Wie kann man sich vor einem Datenverlust schützen?

Damit ein Ausfall einer oder mehrerer RAID-Festplatten oder der Absturz eines virtuellen Systems nicht zum Datenverlust führt, kann man sich mit einigen wenigen – und einfachen – Mitteln schützen:

1. Sichern Sie Ihre Daten mit einem Backup

Es hört sich relativ einfach an, aber in vielen Fällen stellen wir fest, dass Unternehmen gar kein funktionierendes Backup ihrer Daten vorhalten. Aber nur auf diese Weise sind Sie wirklich sicher, dass geschäftskritische Informationen schnell wiederhergestellt werden können.

2. Erstellen Sie einen detaillierten Notfallplan

Neben dem Erstellen und der regelmäßigen Prüfung von Backups ist auch ein Notfallplan für Datenverluste ein wesentlicher Bestandteil der Datensicherung im Rechenzentrum. Darin sollten neben den Verantwortlichkeiten auch die technischen Lösungsvorschläge für die wichtigsten Ausfall-Szenarien detailliert dokumentiert werden.

3. Bewahren Sie Ruhe

Auf der Suche nach einer Lösung sollten Sie auf keinen Fall übereilte Entscheidungen treffen, sondern immer die Auswirkungen und Konsequenzen auf das gesamte IT-System berücksichtigen. Wenn Sie sich nicht absolut sicher sind, was Sie tun, lassen Sie es lieber sein!

4. Wenden Sie sich lieber an einen professionellen Datenretter

In vielen Fällen kann man Daten wiederherstellen. Wichtig ist nur, dass der betreffende Speicher nach einem Datencrash oder einem Hardwareausfall nicht weiter genutzt wurde. Wenn bereits neue Informationen über die Speicher-Sektoren geschrieben wurden, kann an diesen Stellen auch nichts mehr wiederhergestellt werden. Dann lassen sich nur noch mit viel Aufwand und Datenrettungs-Knowhow verbliebene Dateien oder Datenreste  im Umfeld der überschriebenen Sektoren wiederherstellen.

Fazit: Wenn man sich an diese Vorgaben hält, kann man zwar nicht alle künftigen Datenverluste in einem Rechenzentrum gänzlich ausschließen, aber zumindest die negativen Auswirkungen auf das Unternehmen begrenzen.

Holger Engelland ist Leiter des Datenrettungslabors von Kroll Ontrack in Böblingen