Go to Top

Denke groß! Recovery-Lösungen für große Speichersysteme (Teil 2)

Recovery-Lösungen für große Speichersysteme

Im ersten Teil dieses Artikels haben wir die Speichersystemarchitekturen behandelt, jetzt wollen wir aufzeigen, wie Systemausfälle und Datenverlust zu bewältigen sind.

Vermeiden von Speichersystemausfällen

Auch wenn Sie vielleicht nicht in der Lage sind eine Katastrophe zu verhindern, können Sie unter Umständen die Unterbrechung der Serviceleistungen für Ihre Kunden minimieren.

Es gibt viele Möglichkeiten, um die Auswirkungen von Speichersystemfehlern zu reduzieren oder zu minimieren. Zum Beispiel können Sie dem primären Speichersystem eine Redundanz hinzufügen. Einige der Möglichkeiten können ziemlich teurer sein und nur große Wirtschaftsunternehmen werden sich diese Investitionen leisten können. Diese Optionen umfassen doppelte Speichersysteme oder identische Server, auch bekannt als „Mirror Sites“. Zudem bieten ausgeklügelte Backup-Prozesse oder Dateisystem-„Snapshots“, die immer zu einem bestimmten Zeitpunkt eine Wiederherstellung durchführen“ noch ein anderes Datenschutzlevel.

Die Erfahrung hat gezeigt, dass in der Regel mehrere oder auf einander aufbauende Ausfälle passieren, wenn eine Firma eine Datenkatastrophe erlebt. Sich daher nur auf ein Wiederherstellungsprotokoll zu verlassen wäre kurzsichtig. Eine erfolgreiche Speicherorganisation verfügt deshalb über mehrere Wiederherstellungsebenen.

Wir haben von tausenden IT-Horrorgeschichten gehört, die sich von anfänglichen Speicherausfällen zu kompletten Datenkatastrophen entwickelten. In dem Bemühen ein System wieder zum Laufen zu bringen, können einige Entscheidungen die Daten dauerhaft beschädigen.

4 Wege den Datenverlust nach einer Katastrophe zu minimieren

Es gibt mehrere Risikominderungsstrategien, die Storage-Administratorenhelfen können Datenverlust zu minimieren, wenn eine Katastrophe passiert:

  • Offline-Speichersystem: Versuchen Sie nicht ein Array oder ein Laufwerk um jeden Preis online zu bringen. Es ist meistens ein triftiger Grund vorhanden, warum eine Controller-Karte ein Laufwerk oder ein Array deaktiviert; ein Array zu zwingen wieder online zu gehen, kann zu einer Dateisystem-Korrumpierung auf dem Volume führen.
  • Wiederherstellung eines ausgefallenen Laufwerks: Wenn ein einziges ausgefallenes Laufwerk wiederhergestellt wird, ist es wichtig, der Controller-Karte zu ermöglichen, den Prozess zu beenden. Wenn ein zweites Laufwerk während dieses Prozesses ausfällt, beenden Sie Ihre Bemühungen und holen Sie sich professionelle Unterstützung. Während eines Rebuilds führt das Ersetzen einer zweiten fehlerhaften Festplatte zur Datenveränderung auf den anderen Festplatten.
  • Speichersystemarchitektur: Planen Sie die Konfiguration des Speichersystems sorgfältig. Wir haben bereits viele Fälle gesehen, wo mehrere Konfigurationen auf einem einzigen Storage-Array verwendet wurden. Zum Beispiel werden drei RAID 5 Arrays mit jeweils sechs Festplatten in einem RAID 0 „gestriped“ und dann miteinander „gespannt“. Besser ist, Sie halten sich an eine einfache Speicherkonfiguration und dokumentieren dann jeden Aspekt davon.
  • Während eines Ausfalls: Wenn ein Problem soweit eskaliert, dass man sich an den technischen Support des Herstellers wenden muss, sollten Sie sich immer fragen: „Ist die Datenintegrität gefährdet?“ oder „Wird dieser Schaden in irgendeiner Weise meine Daten beschädigen?“ Wenn der hinzugezogene Techniker sagt, dass ein Risiko für die Daten besteht, sollten Sie abbrechen und ein professionelles Datenrettungsunternehmen hinzuziehen.

Bildnachweis:  C.Nöhren/ pixelio.de