Resilienz-Management Ausfallsicherheit erhöhen: Ja bitte, aber wie?
Anbieter zum Thema
Immer mehr Unternehmen, die ihre digitale Transformation vorantreiben, sind zunehmenden Hacker-Angriffen ausgesetzt. Damit sind IT-Ausfallzeiten fast schon vorprogrammiert. Welche Resilienz-Strategien sind zu implementieren, um kostspielige Unterbrechungen zu vermeiden?

Nicht selten beginnen Unternehmen erst dann über das Thema IT-Resilienz ernsthaft nachzudenken, wenn sich ein oder sogar mehrere Vorfälle ereignet haben oder bereits Kundenabwanderungen spürbar sind. Um diese IT-Risiken anzugehen, muss das Management ihren Ansatz grundlegend ändern. Für ein effizientes IT-Resilienz-Management sind folgende Überlegungen zu berücksichtigen:
Lösungen für Prozesse finden
Es empfiehlt sich die Suche nach Lösungen für Prozesse und nicht für Anwendungen. Anstatt sich auf die Behebung kritischer Anlagen wie beispielsweise Anwendungen und Infrastrukturen zu konzentrieren, sollten Unternehmen die gesamte Customer Journey betrachten und davon die schwächsten Glieder fokussieren.
Auf den Punkt gebracht: Es geht nicht darum, Anwendungen zu modernisieren, sondern zu verstehen, wie alle Anwendungen, API-Aufrufe und Abhängigkeiten von Drittanbietern zusammenwirken, um das gewünschte Ergebnis der Customer Journey zu erzielen, und dann herauszufinden, welche Komponenten durch Ausfallzeiten davon abgehalten werden, die Customer Journey zu beenden.
Risikobasierten Ansatz verfolgen
Viele Unternehmen betrachten die Ausfallsicherheit nur als eine Frage der IT-Infrastruktur. Stattdessen empfiehlt sich ein zweigleisiger, risikobasierter Ansatz. Mit einem geschäftsorientierten Top-Down-Ansatz lassen sich Prioritäten für risikobehaftete Journeys setzen. In diesem Zusammenhang sollten sich Unternehmen zum Beispiel fragen, welche Customer Journeys sich auf den Umsatz oder die Kundenzufriedenheit auswirken.
Der zweite Ansatz ist ein quantifizierbarer Bottom-up-Ansatz, bei dem das Risikoprofil einer Technologie-Komponente, zum Beispiel der API-Aufruf eines Drittanbieters, berechnet wird, um einen Plan zur Risikoreduzierung für dieses spezifische Asset zu erarbeiten. Unternehmen können demnach ein Risikoprofil erstellen, das Elemente wie die Wahrscheinlichkeit des Ausfalls, die schnelle Erkennung eines Fehlers und seine Auswirkungen zu minimieren, berücksichtigt.
IT-Betriebsdaten nutzen
Ein IT-Betrieb generiert umfangreiche Datensätze, wobei viele Unternehmen diese nicht konsequent genug als Erkenntnisse oder für Kapazitätsplanungen nutzen können. Dies rührt daher, dass sie über viele unterschiedliche Tools verfügen und es ihnen an spezifischen Fähigkeiten und den erforderlichen Organisationsstrukturen mangelt.
Durch den Einsatz von Technologien der künstlichen Intelligenz (KI) und fortschrittlichen Funktionen wie der Ereignis-Korrelation, die Datensätze miteinander verknüpfen können, sind Unternehmen dazu in der Lage, ihren Umgang mit Ausfällen zu optimieren.
In früheren Jahren dauerte die Sichtung von Störfällen oft Stunden und eine Vielzahl von IT-Fachleuten und Mitarbeiter mussten auf Abruf bereitstehen. Heute können Unternehmen die durchschnittliche Zeit zur Identifizierung von Störfällen um 50 bis 75 Prozent reduzieren.
Für den Worst Case planen
Traditionell führen IT-Teams Übungen zu Kapazitätsplanungen durch und legen ein kleines Vielfaches von vielleicht 50 Prozent des Spitzenvolumens fest. Bei einem Anstieg des digitalen Datenverkehrs in Höhe von 300 bis 500 Prozent kann dies allerdings zu massiven Ausfällen führen.
Um solche Probleme in den Griff zu bekommen und mit Spitzenvolumen umzugehen, sollten Unternehmen Infrastruktur-Kapazitäten aufbauen. Dafür qualifizieren sich beispielsweise containerisierte Anwendungen, um die Kapazität in allen Komponenten des technischen Stacks schnell zu erhöhen und Engpässe (zum Beispiel Nachrichten-Warteschlangen) in der Middleware zu beseitigen.
Technische Denkweise entwickeln
Führende Unternehmen investieren in den Aufbau von Know-how, indem sie neue Talente einstellen, die beispielsweise Site-Reliability-Engineering (SRE)-Funktionen implementieren und den vorhandenen Mitarbeitern bei der Umschulung für eine DevOps-Automatisierung helfen.
Diese Investitionen unterstützen auch die Einführung moderner technischer Maßnahmen wie beispielsweise Continuous-Integration- und Continuous-Delivery-Pipelines (CI/CD) zur Automatisierung der Software-Bereitstellung, Service-Level-Indikatoren zur Messung des Systemverhaltens sowie vorgegebene Metriken zur Verfolgung von Service-Level-Zielen, Fehlerbudgets und End-to-End-Codeverantwortung.
Durch die Ausführung dieser Maßnahmen können Unternehmen die Betriebszeit optimieren und die Automatisierung nutzen, um IT-Probleme frühzeitig zu erkennen und schnell zu beheben.
Qualitäts- und Konsistenz-Standards
Unternehmenskulturen, die Qualitäts- und Konsistenz-Standards unterstützen, sind widerstandsfähiger, weil sie eine Krise als Chance zum Lernen begreifen. In fast jedem Unternehmen gibt es Mitarbeiter, die viel wissen und können, die sehr gut auf andere eingehen und die im Allgemeinen sich auch noch durch ihre Hilfsbereitschaft auszeichnen.
Dieses Szenario kann jedoch die Widerstandsfähigkeit eines Unternehmens beeinträchtigen, weil zu viele Aufgaben an zu wenige Personen delegiert werden. Stattdessen sollten Führungskräfte die gewünschten Veränderungen in der Denkweise der Organisation vorleben, indem sie Teams dazu anregen, diese Botschaften zu verinnerlichen.
Proaktiv werden, nicht reaktiv
Misserfolge sind unvermeidlich. Unternehmen müssen jedoch IT-Schwächen erkennen, bevor sie sich systemweit ausbreiten. Fehler in der Betriebskontrolle können sich letztendlich als große Ausfall-Sicherheitsprobleme erweisen. Um Probleme schnell zu erkennen, schneller zu beheben und die Auswirkungen zu minimieren, sollten Unternehmen Kontrollen aufbauen und automatisieren.
Beispielsweise können Pre-Mortem-Analysen, Chaos-Engineering, Problem-Simulationen und Strategietests dazu beitragen, die Ausfallsicherheit zu erhöhen, so dass tatsächliche Probleme keine Überraschung mehr darstellen.
In einem Best-Practise-Fall reduzierte ein führender Finanzdienstleister Ausfälle um mehr als ein Drittel durch kurzfristige taktische Korrekturen und eine verbesserte Überwachung seiner Tier-1-Prozesse wie beispielsweise der Anmeldung. Die durchschnittliche Lösungszeit für alle schwerwiegenden Vorfälle wurde innerhalb von sechs Monaten um fast zwei Drittel(!) gesenkt.
(ID:48973468)