Notfallpläne, Hochverfügbarkeit und Patch-Management haben versagt Lessons Learned aus dem CrowdStrike-Vorfall

Von Thomas Joos 6 min Lesedauer

Anbieter zum Thema

Durch ein fehlerhaftes Update der Sicherheitssoftware von CrowdStrike sind Mitte Juli weltweit knapp neun Millionen Windows-PCs auf Grund einer fehlerhaften Datei in eine Dauer-Bootschleife gelaufen, die sich erst durch das Löschen der fehlerhaften Datei beenden lies. Was sollten Unternehmen daraus lernen?

Fehlerhafte Updates können auch Windows schnell zum Absturz bringen.(Bild:  Joos - Microsoft)
Fehlerhafte Updates können auch Windows schnell zum Absturz bringen.
(Bild: Joos - Microsoft)

Externe Anbieter von Sicherheitssoftware haben in Windows sehr tiefgreifenden Zugang. Das liegt allerdings nicht an Microsoft (allein), sondern an gesetzlichen Regelungen, die dafür sorgen sollen, dass Microsoft seine Marktmacht nicht ausnutzt. Anbieter von Drittsoftware sollen dabei in die Lage versetzt werden, ebenfalls umfassende Sicherheitslösungen für Windows anbieten zu können. Ist eine solche Software fehlerhaft, dann kann diese Windows durchaus zum Absturz bringen. Und, es ist durchaus möglich, dass sich ein solcher Vorfall wiederholt. Aus diesem Grund sollten sich Unternehmen darauf vorbereiten und ihre Lehren aus dem aktuellen Vorfall ziehen.

Infrastruktur-Updates stellen Risiken dar

Ungeachtet der technischen Details zeigt sich, dass die Praxis auf breiter Ebene automatisch eingespielter Updates erhebliche Risiken in sich birgt. Dies bestätigt die Ansicht vieler Sicherheitsprofis, die immer wieder vor den Gefahren solcher automatisierten Prozesse warnen. Bereits eine fehlerhafte Aktualisierung kann zu erheblichen Systemausfällen führen, wie der CrowdStrike-Vorfall eindrucksvoll belegt.

Ein weiterer Aspekt, der auffällt, ist die Reaktion von CrowdStrike auf den Vorfall. Die Entschuldigung des CEO wurde von vielen als unzureichend angesehen, da keine konkreten Maßnahmen zur Vermeidung zukünftiger Probleme präsentiert wurden. Dies wirft Fragen zur internen Qualitätssicherung und zum Umgang mit Risiken auf, besonders in einem Sektor, der für seine Sicherheitslösungen bekannt ist.

Die Lehren aus diesem Vorfall gehen über die bloße technische Analyse hinaus. Unternehmen sollten ihre Risikoabschätzung erweitern und nicht nur Bedrohungen durch Hacker berücksichtigen, sondern auch die potenziellen Gefahren, die von fehlerhaften Software-Updates oder veralteten Systemen ausgehen. Insbesondere da, wo veraltete Hardware und Software im Einsatz ist, besteht ein erhöhtes Risiko durch Ressourcenerschöpfung oder Systemversagen aufgrund von Alterungsprozessen.

Der CrowdStrike-Vorfall zeigt, dass die größte Gefahr nicht immer von externen, böswilligen Akteuren ausgeht, sondern oft von internen Schwachstellen und Nachlässigkeiten. Unternehmen sollten daher ihren Fokus stärker auf die Widerstandsfähigkeit ihrer IT-Systeme legen, um nicht nur vor Cyberangriffen geschützt zu sein, sondern auch vor den Auswirkungen nicht-böswilliger Störungen.

Die Rolle der Berichterstattung beim CrowdStrike-Vorfall

Ein bemerkenswerter Aspekt des CrowdStrike-Vorfalls war die anfängliche Verwirrung und Fehlkommunikation in den Medien. Viele Berichte machten Microsoft als Verursacher der Ausfälle verantwortlich, obwohl sich später herausstellte, dass die Sicherheitslösung von CrowdStrike die eigentliche Ursache war. Dies führte dazu, dass viele Unternehmen und Administratoren anfänglich davon ausgingen, die Microsoft-Dienste selbst seien ausgefallen, was sich jedoch als Fehlannahme herausstellte. Die Authentifizierungsdienste, die auf CrowdStrike angewiesen waren, führten zu einer massiven Beeinträchtigung der IT-Infrastrukturen, insbesondere bei Firmen, die ADFS oder Pass-Through-Authentifizierung verwendeten.

Interessanterweise korrigierten nur wenige Massenmedien ihre Berichterstattung nach dieser Erkenntnis. Dies führte dazu, dass der Eindruck eines weitreichenden Microsoft-Problems bestehen blieb, was den Vorfall in der öffentlichen Wahrnehmung zusätzlich verzerrte. Die Art und Weise, wie Medienberichte schnell die Cloud-Dienste von Microsoft ins Visier nahmen, zeigt, wie stark bekannte Namen in der Berichterstattung über IT-Ausfälle genutzt werden, während spezialisierte Sicherheitslösungen wie CrowdStrike im Vergleich wenig beachtet wurden.

Diese Entwicklung unterstreicht, wie wichtig klare und transparente Kommunikation in Krisensituationen ist, insbesondere bei weit verbreiteten IT-Ausfällen. Unternehmen sollten in der Lage sein, schnell und präzise zwischen unterschiedlichen Ursachen zu unterscheiden und diese Informationen an ihre Kunden und Medien weiterzugeben, um unnötige Verwirrung und falsche Schuldzuweisungen zu vermeiden. Denn schlussendlich beeinflusst das auch die Geschwindigkeit und den Ablauf der notwendigen Fehlerbehebungen.

Fehlende Notfallpläne und die Herausforderungen für das Krisenmanagement

Ein weiteres Problem, das der CrowdStrike-Vorfall aufgedeckt hat, ist das Fehlen umfassender Notfallpläne in vielen betroffenen Unternehmen. Während es für Cyberangriffe und Pandemie-bedingte Ausfälle oft gut ausgearbeitete Pläne gibt, zeigte sich, dass viele Firmen nicht ausreichend auf technische Probleme vorbereitet sind, die sowohl Server als auch Clients gleichzeitig betreffen. Die unerwarteten Serverausfälle führten zudem zu einer Situation, in der viele Unternehmen keinen Zugriff auf ihre Notfallpläne hatten, da diese oft in digitaler Form in Systemen wie SharePoint oder Teams gespeichert waren, welche jedoch nicht zugänglich waren.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Zusätzlich fehlte es in vielen Organisationen an alternativen Kommunikationskanälen. Da die meisten IT-Infrastrukturen und Tools wie E-Mail oder Kollaborationsplattformen ebenfalls von den Ausfällen betroffen waren, standen viele Firmen vor der Herausforderung, ihre Mitarbeiter nicht informieren zu können. Besonders in Zeiten von Homeoffice, wo keine physische Präsenz der Mitarbeitenden gegeben ist, erwies sich dies als schwerwiegendes Hindernis. Unternehmen müssen daher über alternative, offline verfügbare Kommunikationswege nachdenken, um in solchen Situationen handlungsfähig zu bleiben.

Der CrowdStrike-Vorfall zeigt, dass Notfallpläne über die bloße technische Wiederherstellung hinausgehen müssen. Firmen sollten sicherstellen, dass kritische Informationen in gedruckter oder in einer offline zugänglichen Form verfügbar sind und Kommunikationsmittel unabhängig von der IT-Infrastruktur funktionieren. Zudem hat sich die Bedeutung von regelmäßigen Tests der Notfallprozesse, nicht nur für Cyberangriffe, sondern auch für technische Fehlfunktionen, klar gezeigt.

Technische Schwächen bei automatischen Updates und die Rolle von Redundanzen

Der CrowdStrike-Vorfall hat die Risiken automatischer Updates und mangelnder Redundanzen in IT-Infrastrukturen offengelegt. Automatische Updates gelten oft als notwendiges Übel, um Sicherheitslücken schnell zu schließen. Doch gerade dieser Vorfall zeigt, dass sie in großem Maßstab zu gravierenden Systemausfällen führen können, wenn nicht ausreichend getestet wird. Der betroffene Patch von CrowdStrike, der ohne Staffelung an alle Kunden ausgerollt wurde, führte zu einem Massen-Absturz von Servern und Authentifizierungsdiensten, was zahlreiche Unternehmen lahmlegte.

Eine wichtige Lehre aus dem Vorfall ist die Notwendigkeit, automatisierte Update-Prozesse genauer zu überwachen und Redundanzen zu schaffen. Bei kritischen Updates sollten Mechanismen vorhanden sein, die eine Staffelung und Pilotierung ermöglichen, um potenzielle Fehler rechtzeitig zu erkennen, bevor sie flächendeckend ausgerollt werden. Unternehmen sollten zudem sicherstellen, dass ihre Infrastrukturen auf Ausfälle vorbereitet sind, indem sie Backup-Systeme und alternative Authentifizierungsprozesse nutzen, die nicht von einem einzigen Sicherheitssystem abhängig sind. Diese Redundanzen sind besonders wichtig, um in Notfallsituationen den Betrieb aufrechtzuerhalten oder schnell wiederherstellen zu können.

Zudem verdeutlicht der Vorfall, dass der Fokus auf Sicherheitsupdates manchmal die operativen Risiken überschatten kann. IT-Sicherheitslösungen sollten nicht nur darauf ausgelegt sein, Bedrohungen abzuwehren, sondern auch den sicheren Betrieb der IT-Infrastruktur zu gewährleisten – selbst bei Updates. Die Implementierung von Maßnahmen wie Last-Known-Good-Konfigurationen, die es ermöglichen, nach einem fehlgeschlagenen Update auf einen vorherigen stabilen Zustand zurückzukehren, wäre beispielsweise ein sinnvoller Schritt zur Verbesserung der Resilienz von IT-Systemen.

Rechtliche Implikationen und Verantwortung der Hersteller

Ein weiterer Aspekt, der durch den Vorfall hervorgehoben wird, ist die rechtliche Verantwortung der Softwarehersteller. CrowdStrike gerät nicht nur durch die technischen Fehler, sondern auch durch rechtliche Auseinandersetzungen unter Druck. Erste Klagen von betroffenen Unternehmen sowie Sammelklagen von Investoren, die erhebliche Kursverluste hinnehmen mussten, stellen das Unternehmen vor enorme Herausforderungen. Auch wenn CrowdStrike in seinen allgemeinen Geschäftsbedingungen explizit darauf hinweist, dass die Software nicht für den Einsatz in kritischen Infrastrukturen wie Flugverkehrskontrollsystemen oder Nuklearanlagen ausgelegt ist, bleibt die Frage offen, inwieweit diese Einschränkungen im Alltag berücksichtigt werden.

Die rechtlichen Implikationen betreffen jedoch nicht nur CrowdStrike. Einige Unternehmen erwägen, Microsoft für den Vorfall mitverantwortlich zu machen, da das Betriebssystem Windows als Plattform für den CrowdStrike-Agent fungierte. Die Frage nach der Haftung wird hierbei zentral sein, da Microsoft nachweisen kann, dass die betroffenen Systeme ohne CrowdStrike-Agent funktionierten. Solche Vorfälle könnten die Diskussion über die Verantwortung von Plattformanbietern und Drittanbietern von Sicherheitssoftware weiter anheizen, insbesondere im Hinblick auf zukünftige rechtliche Rahmenbedingungen für Cloud-basierte und On-Premises-Sicherheitslösungen.

(ID:50215238)