AIOps im Incident-Management Automatisierung und KI im Incident-Management

Ein Gastbeitrag von Heath Newburn 4 min Lesedauer

Anbieter zum Thema

Neben umfangreichen internationalen Krisen stellte die rasche Umstellung auf Hybrid- und Remote-Arbeit sowie die plötzlich notwendige Digitalisierung von Prozessen Unternehmen in den letzten Jahren vor komplexe Herausforderungen. Überlastete DevOps-, SRE- und IT-Teams mussten sich um zahlreiche zusätzliche Aufgaben kümmern und verbringen noch immer mehr Zeit mit der Bearbeitung von Incidents und der Behebung von Problemen, als eigentlich nötig wäre.

AIOps im Incident-Management kombiniert das Beste aus der KI mit menschlichen Fähigkeiten und ermöglicht im Rauschen der Alarmflut entscheidende Angriffs-Signale zu erkennen.(Bild:  Alexander Limbach - stock.adobe.com)
AIOps im Incident-Management kombiniert das Beste aus der KI mit menschlichen Fähigkeiten und ermöglicht im Rauschen der Alarmflut entscheidende Angriffs-Signale zu erkennen.
(Bild: Alexander Limbach - stock.adobe.com)

Die Notwendigkeit, die digitale Transformation schneller als je zuvor zu vollziehen, sowie die historischen Veränderungen hinsichtlich der Art und Weise, wie und wo wir arbeiten, werden durch anhaltende Personalknappheit verschärft. Technische Teams erleben eine stärkere Beanspruchung als je zuvor. Zudem sind Anforderungen, Prozesse und technische Systeme im Zuge der fortschreitenden Digitalisierung immer komplexer geworden. Auf der anderen Seite steigt der Anspruch der Kunden, die immer zuverlässigere und umfassendere Dienste verlangen. Die Zahl der kritischen Incidents steigt.

Unternehmen im Dilemma

Auf der einen Seite müssen Unternehmen ihre digitale Entwicklung vorantreiben, um nicht den Anschluss zu verlieren. Andererseits trägt das Labyrinth aus neuen Anwendungen, Prozessen und Daten zu mehr Komplexität bei. Dies wird durch ein überwältigendes Maß an Alarmen und Notifikationen im gesamten Unternehmen, mit der sich die IT-Teams täglich auseinandersetzen müssen, noch verstärkt. In Folge verschwenden DevOps, SRE und IT-Teams unnötig viel Zeit auf die Auswertung und Bearbeitung von Meldungen potenzieller Incidents.

Die Folge: Alarmmüdigkeit und Druck verursachen weitere Schwierigkeiten – nicht nur bei der Reaktion auf Vorfälle. Steigendes Burnout-Niveau und Fluktuation belasten nicht nur die Mitarbeiter sondern erhöhen auch das Sicherheitsrisiko. Überarbeitung gehört zu den häufigsten Ursachen für steigende Fehlerquoten. Mit jedem Personalwechsel geht wertvolles Wissen verloren. Die Einarbeitung neuer Mitarbeitender kostet Zeit – und Geld. Im ohnehin angespannten Arbeitsmarkt können Unternehmen eine solche Abwärtsspirale oft nicht mehr stoppen.

Eine unmittelbare Entspannung ist nicht in Sicht, weder auf dem kurzfristigen Arbeitsmarkt für IT-Fachkräfte, noch in Bezug auf die Komplexität sowie Anzahl der Alarme oder Antwortgeschwindigkeiten im Incident Management. Die Fähigkeit, das Rauschen zu komprimieren, automatisierte Situationsanalysen zu erstellen und Ereignisse in einen Kontext zu setzen, werden damit zum Schlüssel für den Erfolg einer Organisation. Firmen, die schnell auf Incidents reagieren und Probleme lösen können – am besten, bevor die Kunden betroffen sind – haben entsprechend einen entscheidenden Wettbewerbsvorteil. Automatisierte betriebliche Abläufe und intelligente Plattformen verringern den Druck auf IT-Operation- & Management-Teams (ITOM-Teams). Mitarbeitende können sich wieder auf wichtige, strategische Aufgaben konzentrieren. Weitere Vorteile sind geringere Fehlerquoten, schnellere Reaktionszeiten und bessere, langfristige Problemvermeidung. Damit werden Unternehmen widerstandsfähiger und das Sicherheitsrisiko sinkt.

AIOps 2.0

Künstliche Intelligenz (KI; auch Artificial Intelligence, AI) und maschinelles Lernen (ML) spielen eine wichtige Rolle bei der Automatisierung im Incident Management. In Kombination mit menschlichem Fachwissen können Unternehmen wertvolle Wissensdatenbanken aufbauen und pflegen. Auch Ersthelfer, Junioren oder neue Teammitglieder erhalten so den notwendigen Kontext, um schnell und kompetent auf kleine und große wie kleinere Vorfälle zu reagieren bzw. sie zu lösen: Intelligente Filter reduzieren das von allen Überwachungstools erzeugte Rauschen. Sich ständig verbessernde Algorithmen konsolidieren die Informationen und schaffen den nötigen Kontext, um die wahrscheinliche Ursache einzugrenzen. Fortschrittliche Plattformen schlagen bereits detaillierte Schritte zur Behebung eines Problems vor und liefern Textbausteine für die Kommunikation mit anderen Teams oder externen Stakeholdern, z. B. den Kunden. Automatische Diagnosen und Abhilfemaßnahmen ersparen sich wiederholende Arbeitsschritte. Das reduziert Burnout und steigert die Effizienz. Der manuelle Aufwand wird auf ein Minimum reduziert, Fehler werden vermieden und Dienste werden schneller wiederhergestellt.

Der Vorteil: IT- und Entwicklerteams müssen nicht mehr so viel Zeit mit ungeplanten Wartungsarbeiten aufwenden und haben mehr Ressourcen für die Entwicklung innovativer Lösungen für die komplexen und dringenden Probleme des Unternehmens.

Nicht jeder Alarm ist ein Incident

Mit der richtigen Herangehensweise an AIOps können Unternehmen KI und ML nutzen, um die kritischen Meldungen in einer Flut von Benachrichtigungen zu erkennen. Mit Zugriff auf Ereignisse und andere Daten sowie Alarmmeldungen aus dem gesamten Unternehmen kann eine gute AIOps-Plattform einzelne Meldungen in Kontext setzen und Meldungen bzw. Aufgaben automatisiert priorisieren. IT-Teams können schneller Entscheidungen treffen. Dieser automatisierte, menschenzentrierte Ansatz beschleunigt den Diagnoseprozess und hilft den Teams, Probleme zu beheben, bevor sie sich nachteilig auf das Geschäft auswirken. Ist menschliches Eingreifen nicht erforderlich, können automatisierte Abhilfemaßnahmen ergriffen werden. AIOps im Incident-Management-Prozess reduziert damit die sonst notwendige manuelle Arbeit.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Fazit

AIOps im Incident-Management kombiniert das Beste aus der KI mit menschlichen Fähigkeiten. Moderne AIOps-Plattformen verfügen über eine breite Palette von Integrationen der in Unternehmen am meisten verbreiteten Dienste, unterstützen eine Vielzahl von Umgebungen und berücksichtigen branchenspezifische Best Practices sowie relevante Sicherheits- und Compliance-Frameworks. Die dynamische Nutzung von Runbooks und Wissensdatenbanken ermöglicht es jüngeren und weniger erfahrenen Mitarbeitern, schnell und kompetent zu handeln.

Mit der automatisierten Kontextualisierung und Priorisierung von Meldungen treiben AIOps den gesamten Incident-Response-Prozesses voran. Manueller Aufwand und die Beschäftigung mit weniger wichtigen Aufgaben werden auf ein Minimum reduziert. Einfachere Probleme können sogar komplett automatisiert gelöst werden – ohne menschliches Eingreifen. Das alles entlastet die Teams und senkt das Burn-out-Risiko. Mitarbeitende in den IT- und DevOps-Teams sind zufriedener und loyaler, machen weniger Fehler und beschäftigen sich eher mit innovativen Prozessen oder Werkzeugen zum Wohl der Organisation. Automatisierung und AIOps machen Unternehmen anpassungsfähiger, reaktionsschneller und vor allem widerstandsfähiger.

Über den Autor: Heath Newburn ist Global Field CTO bei PagerDuty. Mit den Lösungen des Unternehmens unterstützt er Kunden bei der Integration ihrer strategischen Fähigkeiten, um bessere Geschäftsergebnisse zu erzielen. Heath Newburn verfügt über umfangreiche Technologieerfahrung: Er arbeitete bei IBM, wo er in den Bereichen Softwareentwicklung, Qualitätssicherung, Produktmanagement, Support und Operations tätig war. Bei Motorola war er technischer Leiter des Iridium-Satellitenprogramms. Darüber hinaus war er Produktmanager für IBM Tivoli Monitoring, leitete das Produktmanagement für Netcool und war Sales CTO für IBM Cloud und Smarter Infrastructure in Nordamerika.

(ID:49844825)