Gefahren der Virtualisierung Wie RAID-Verbunde zu Datenverlust führen

Autor / Redakteur: Andreas Mortensen, Attingo / Stephan Augsten

Die Risiken der Virtualisierung werden unterschätzt. In diesem Beitrag erörtern wir, welche Faktoren einen Datenverlust in virtuellen Maschinen und Umgebungen begünstigen.

Ein RAID-Verbund schafft in virtualisierten Umgebungen nicht unbedingt Sicherheit.
Ein RAID-Verbund schafft in virtualisierten Umgebungen nicht unbedingt Sicherheit.

Entgegen der weit verbreiteten Meinung, die Virtualisierung von IT-Systemen sorge für höhere IT-Sicherheit, muss betont werden: Ohne gezielte Maßnahmen führt Virtualisierung zunächst einmal zu einem Minus an Sicherheit. Denn es treten zusätzliche Fehlerquellen auf, die Datenverlust potenziell begünstigen und eine Wiederherstellung erschweren.

Studien zufolge ist Server-Virtualisierung heute in mehr als 75 Prozent der größeren Unternehmen verbreitet. Aufschluss gibt der V-Index der Unternehmensgruppe Veeam Software. Dazu befragte das Marktforschungsunternehmen Vanson Bourne rund 500 große Unternehmen aus den USA, Großbritannien, Frankreich und Deutschland.

So wird für 2011 eine Gesamt-Virtualisierungsrate von 39,4 Prozent ausgewiesen – vier von zehn Servern sind demnach virtualisiert. In deutschen Großunternehmen liegt der Wert mit 45,1 Prozent noch höher – fast schon jeder zweite Server.

Unweigerlich steigt damit auch die Zahl der Datenverlust-Vorfälle in virtualisierten Systemen, aktuelle Statistiken aus den Datenrettungslabors sind alarmierend. Im Vergleich zum Vorjahr verzeichnet Attingo als Spezialist für Datenrettung im deutschsprachigen Raum eine Zunahme entsprechender Fälle um rund 30 Prozent.

Einerseits liegt das wie erwähnt an der verstärkten Nutzung von Virtualisierungstechnologien. Zum anderen zeigt sich auch, dass viele Anwender noch zu wenig über Gefahren sowie die Vermeidung oder Reduzierung von potenziellen Fehlerquellen informiert sind.

Die folgende Liste zeigt die wichtigsten „unterschätzten Gefahren in virtualisierten Umgebungen“ auf Basis der Erfahrungen aus den Attingo-Datenrettungslabors in Hamburg, Wien und Amsterdam.

Virtuelle Maschinen in RAID-Verbunden

Virtualisierung bietet enorme Einsparpotentiale. Insbesondere reduzieren sich die Beschaffungskosten der Hardware. Die Anzahl der klimatisierten Serverschränke sowie die Stromkosten sinken ebenso wie Lizenz- und Personalkosten. Doch der Einsatz virtueller Maschinen ist auch mit oft unterschätzten Risiken verbunden.

Im Sinne der Ausfallsicherheit werden virtuelle Maschinen in mehr als 95 Prozent der Fälle mit RAID-Systemen umgesetzt. Dabei sind mehrere Festplatten zu einem Verbund zusammengefasst. Vorteil ist, dass – ausgenommen vom RAID-Level 0 – trotz Ausfall einer oder mehrerer Festplatten alle Daten aufgrund der redundanten Speicherung verfügbar bleiben. Diese vermeintliche Sicherheit birgt jedoch enorme Risiken, denn viele IT-Administratoren vernachlässigen dadurch die trotzdem notwendigen Datensicherungen.

Bekannt ist, dass ein Datenträger im RAID-Verbund ausfallen kann. Spannender ist hingegen die fälschlicherweise weit verbreitete Meinung, dass mehrere Datenträger nicht gleichzeitig ausfallen. Dies kann allerdings schnell geschehen, etwa durch Spannungsspitzen. Davon abgesehen sollte beachtet werden, dass RAID-Verbunde keinerlei Schutz vor logischen Schäden bieten, wie etwa gelöschte Daten oder Angriffe von außen.

Gefahren durch Rebuilding

Doch auch beim Ausfall von nur einem Datenträger muss bereits eine wichtige Hürde gemeistert werden. Nach Austausch des defekten Datenträgers muss das RAID rebuildet werden, doch genau dieser Vorgang kann zum endgültigen Ausfall führen. Der RAID-Controller muss die Daten der defekten Festplatte durch Auslesen der noch funktionsfähigen Platten neu berechnen.

Tritt allerdings während des Rebuilds nur ein einziger Lesefehler auf, kann dieser Prozess abbrechen und der RAID-Verbund meldet einen weiteren ausgefallenen Datenträger. Der Wiederherstellungsvorgang bricht ab und auf das gesamte Speichersystem ist kein Zugriff mehr möglich.

Gefahren durch Resizing

Weitreichende Folgen kann auch das Resizing eines RAID-Verbunds haben. Durch Hinzufügen oder Entfernen von Festplatten oder den Wechsel auf andere Kapazitäten muss ebenfalls der komplette Datenbereich aller Festplatten gelesen werden. Sollte während dieses Vorgangs ein Lesefehler auf einer der ursprünglichen Festplatten auftreten, bricht auch hier alles ab. Das Speichersystem ist nicht mehr verfügbar und kann meist nur im Datenrettungslabor reverse-engineert werden.

Final bedeuten diese Szenarien: Fällt erst einmal der physikalische Server oder das RAID aus, dann sind auch alle darauf eingerichteten virtuellen Maschinen bei fehlender Redundanz des gesamten Servers vom Ausfall betroffen.

Ausfall von RAID-Controllern

Eine weitere, oft gar nicht beachtete Gefahr der Bündelung der Ressourcen auf eine leistungsstarke Maschine ist der Ausfall des RAID-Controllers. Nicht selten sind adaptive Parameter auf dem Controller gespeichert, umgekehrt sind auf den im RAID-Verbund eingesetzten Festplatten Informationen zum RAID-Controller hinterlegt. Dies bedeutet, dass selbst durch Austausch eines baugleichen RAID-Controllers kein Zugriff auf den Verbund garantiert ist.

„Menschliche“ Fehler

Nicht zu unterschätzen ist auch die Gefahr menschlicher Fehler. Gerade in Drucksituationen eines Serverausfalls müssen meist innerhalb kurzer Zeit schnell richtige Entscheidungen getroffen werden. Doch gerade hier passieren verhängnisvolle Fehlgriffe.

Bricht etwa in einem RAID5-Verbund der Vorgang des Rebuilds durch einen weiteren defekten Datenträger ab, so wird aus Panik der zweite defekte Datenträger ausgetauscht und durch einen neuen ersetzt. Läuft der Vorgang des Rebuilds zu 100 Prozent durch, dann hat man am Ende zwar ein funktionsfähiges RAID, allerdings auch korrupte Daten.

Fatale Rebuilds können aber auch durch das Ersetzen falscher Datenträger oder durch eine falsche Reihenfolge der Festplatten erfolgen. Dabei ist zu beachten, dass in vielen Fällen auch die Reihenfolge der in den Servern verbauten Festplatten nicht mit der vom RAID-Controller verwalteten Reihenfolge übereinstimmt.

Administrationsfehler

Die gängigen Administrationsfehler im virtuellen Umfeld sind durchaus dieselben wie bei klassischen Systemen: Oft scheitert es an übersichtlichen und vollständigen Dokumentationen. So ist häufig nicht bekannt, wie viele virtuelle Maschinen im Einsatz sind, welches Gast-Betriebssystem zugrunde liegt und was der Inhalt der virtuellen Maschinen ist.

Durch die zusätzliche Virtualisierungsschicht in Server- und Speicherinfrastrukturen werden die Systeme weitaus komplexer. Insbesondere bei Einsatz verschiedener Betriebs- und Dateisysteme geht eine höhere Komplexität zu Lasten der Übersichtlichkeit und Sicherheit. Die Fehlerquelle Mensch ist hier nicht zu unterschätzen. Falsches Konfigurieren oder nicht-zeitgerechtes Ausführen von Aktualisierungen bergen immer die Gefahr potenzieller Einstiegslöcher in virtuelle Umgebungen.

Sicherheitslücken

Über Sicherheitslücken in einem schwächeren System erhalten Angreifer leichter Zugang zu gehärteten Systemen auf derselben Hardware. Viele virtuelle Umgebungen weisen allein deshalb schon Schwachstellen auf, weil sie aus sehr viel Programmcode aufgebaut wurden und damit eine größere Angriffsfläche bieten.

Angreifer haben dabei zahlreiche Möglichkeiten, um mit der Steuerung der Virtuellen Maschine – dem Hypervisor – Daten auszutauschen. Als Basisplattform für die Virtualisierung ist der Hypervisor daher besonders zu schützen. Denn der Hypervisor wird so in die bestehende Netzwerkumgebung eingebunden, dass er Dienste an verschiedenen Punkten im Netzwerk erbringen kann, wobei die klassischen Sicherheitssysteme oft überbrückt werden.

Kontrolliert ein Angreifer erst einmal den Hypervisor, hat er auch Zugang zu allen angeschlossen Netzwerkbereichen, Massenspeichern und virtuellen Maschinen. Eine weitere unterschätze Gefahr ist der Diebstahl von VMs. Während ein gestohlener physikalischer Server rasch bemerkt wird, kann eine VM einfach kopiert werden.

Trennung kritischer Systeme

In klassischen IT-Umgebungen sind kritische und unkritische Systeme physikalisch getrennt und lassen sich entsprechend ihrer Sicherheitsanforderungen gezielt schützen. In virtualisierten Umgebungen werden hingegen oft kritische und unkritische Systeme auf derselben Hardware betrieben.

Selbst wenn diese Trennung zu Projektbeginn in der virtualisierten Umgebung korrekt umgesetzt wurde, kann es passieren, dass diese durch das Verschieben von virtuellen Maschinen ungewollt wieder aufgelöst wird. Oft werden auch viele Testserver parallel gehalten, um Fehler, Bugs etc. im Vorfeld zu beheben.

Dabei werden manche Test-VMs schließlich als Echtserver übernommen, ohne dass dies im Team ausreichend kommuniziert wird. So kommt es immer wieder vor, dass „der Kollege“ einen neuen Echtserver unwissentlich löscht.

Löschen von Servern

Durch Anbindung an zentrale Verzeichnisstrukturen mit Rollenbasiertem Berechtigungsmanagement ist auch in virtualisierten Umgebungen eine klare Separation of Duties empfehlenswert. Ein Paradebeispiel für einen Administrationsfehler mit verheerenden Folgen, der in der Praxis relativ häufig vorkommt, ist das versehentliche Löschen ganzer Server.

In virtuellen Umgebungen kann über die einheitliche Verwaltungskonsole quasi per Knopfdruck eine gesamte VM gelöscht werden, wenn keine Sicherheitssperren eingerichtet sind. Die positive Nachricht ist, dass gelöschte Server von professionellen Datenrettungsunternehmen in fast allen Fällen rekonstruiert werden können, solange der gelöschte Bereich nicht überschrieben wurde.

Umgang mit Snapshots

Dasselbe gilt auch für den Umgang mit Snapshots. Ein großer Vorteil von virtualisierten Lösungen ist das Erstellen von Snapshots, also Schnappschüsse der aktuellen Konfiguration oder des aktuellen Zustandes des Betriebssystems und des Datenbestands. Somit lässt sich der System-Zustand auf den Zeitpunkt des Snapshots jederzeit wiederherstellen.

Snapshots sind zum Beispiel vor der Installation von Patches oder Servicepacks sinnvoll. Leider passiert es auch in diesem Zusammenhang immer wieder, dass die falschen Snapshots nach Beendigung eines Arbeitsabschnitts gelöscht werden und der gewünschte Zustand mit dem dazugehörigen Bestand an Einstellungen und Daten verloren geht. Abhilfe kann wieder nur eine gewissenhafte Dokumentation und eine geregelte Kommunikation im IT-Team schaffen.

Verschachtelte VMs

Dies ist vor allem auch dann vonnöten, wenn virtuelle Systeme verschachtelt sind und gar mit unterschiedlichen Dateisystemen gearbeitet werden. Die Kombination von Linux- und Microsoft- basierten VMs kommt häufig vor. So kann die SQL-Datenbank auf einem virtuellen Microsoft-Server installiert sein, während der Webserver Linux-basierend aufgebaut ist. Je tiefer die Verschachtelung, desto größer die Gefahren von Datenverlust.

Durch Abbildung mehrerer VMs auf einer Hardware werden oft verschiedenste Gast-, Betriebs- und Dateisysteme parallel genutzt. Als Host-Betriebssystem kommen üblicherweise Windows, Linux, XEN oder VMware (Host-Betriebssystem und Virtualierungssoftware in einem) zum Einsatz. Dateisysteme im Host sind entsprechend des Betriebssystems flexibel. Die bekanntesten sind VMFS, NTFS, ReiserFS oder EXT4. Gast kann nahezu jedes Betriebssystem mit seinen Dateisystemen sein.

Aus Sicht der Datenrettung lässt sich festhalten, dass sich die Gefahren durch zusätzliche Layer vermehren und im Fall der Fälle der Aufwand für eine Datenwiederherstellung steigt. So können Fehler durch das Betriebssystem oder die Virtualisierungssoftware des Hosts verursacht werden, durch das Betriebssystem in der virtuellen Maschine oder durch die Anwendungssoftware. Wenn dann zum Beispiel Dateisysteminformationen nicht korrekt gespeichert werden, können virtuelle Server als defekt oder mit einer Dateigröße von 0 Byte angezeigt werden.

Fehlender Überblick

Die leichte Bedienbarkeit über die Konsole begünstigt, dass schnell die Übersicht über die virtualisierten Server fehlt. Zum Beispiel wenn eine Hardware dutzende virtualisierte Maschinen betreibt und zusätzlich verschiedene externe Storages zum Ablegen der Server-Images verwendet werden, die Daten aber wiederrum auf anderen Systemen abgelegt werden.

Bei größeren Installationen dieser Art kann dies zu handfesten Problemen führen. Es kommt in der Praxis vor, dass sogar führende Großunternehmen im Fall von Datenverlust gegenüber einem Datenretter tatsächlich nicht angeben können, auf welchem Festplattenarray die verlorenen Daten ursprünglich gespeichert waren.

Proprietäre Systeme

Hinzu kommt, dass es sich bei den gängigen Virtualisierungssoftware-Produkten um proprietäre Systeme handelt. Diese befinden sich im Eigentum des Herstellers und ihr Quell-Code ist nicht frei einsehbar. Außerdem ist keine Dokumentation über die Speichervorgänge – wo was nach welchem Muster auf der Platte abgelegt wird – verfügbar.

Daher ist die Wiederherstellung verlorener Daten aus virtualisierten Systemen im Vergleich zu herkömmlichen Infrastrukturen anspruchsvoller und aufwendiger, so dass ein Recovery durch die hauseigene IT nicht mehr möglich ist. Zur professionellen Datenrettung kommen komplexe Rekonstruktionsverfahren zum Einsatz, die aufgrund von laufendem Reverse Engineering verschiedenster Systeme für den Ernstfall zur Verfügung stehen. So wird bei Attingo nach jedem Produkt-Update durch einen Hersteller, wodurch Änderungen im Speicherformat entstehen, wieder ein Reverse Engineering durchgeführt.

Was tun bei Datenverlust

In fast allen Fällen ist eine erfolgreiche Datenrettung möglich, wenn die betroffenen Sektoren nicht durch übereifrige Rettungsversuche bereits überschrieben wurden. Daher ist es wichtig, in der Situation die Ruhe zu bewahren und keine „Versuche“ zu unternehmen.

Dies gilt für das Durchführen von Rebuilds bei RAID-Systemen oder dessen Neu-Initialisierung. Aber auch für den Einsatz von Datenrettungssoftware, welche die Lage unter Umständen verschlimmert, weil dadurch teilweise wichtige Sektoren unkontrolliert überschrieben werden und eine Datenwiederherstellung damit unmöglich gemacht wird.

Grundsätzlich gilt: Je mehr Informationen über den Ausfallhergang sowie über die vorhandene IT-Umgebung vorliegen, desto leichter wird es für die Datenrettungsingenieure, sofort die notwendigen Maßnahmen zu ergreifen. Dazu gehören unter anderem die Angabe des RAID-Levels, des verwendeten Betriebs-und Dateisystems, der Position von Festplatten im RAID-Verbund sowie deren Slot-Nummer. So können in durchschnittlich mehr als 95 Prozent der Fälle verlorene Daten und ausgefallene Systeme vollständig wiederhergestellt werden.

Andreas Mortensen ist angehender B.A. mit langjähriger Erfahrung im IT-Sektor. Seit 2009 ist er bei dem Datenrettungsunternehmen http://www.attingo.com Attingo am Standort Hamburg als Key Account Manager tätig.

(ID:31173040)