Obwohl das Monitoring ein kritischer Aspekt eines jeden Vorgangs in Rechenzentren ist, bleibt es oft das schwarze Schaf unter den IT-Strategien der Unternehmen. Monitoring wird als nebensächlich betrachtet und nicht als Kernkompetenz wahrgenommen. Das muss sich ändern!
Netzwerk-Monitoring und IT-Überwachung sind extrem wichtig – und dennoch werden sie oft vernachlässigt und/oder falsch gemacht
Wie wenig das Thema Netzwerk-Monitoring wertgeschätzt wird, zeigt sich an der Überwachungslösung vieler Unternehmen. Man hat oft den Eindruck, dass Monitoring-Bestandteile und Tools von einer Schar so genannter IT-Fachleute einfach lieblos und sinnfrei übereinander geklatscht wurden. So entwickeln sich im Laufe der Zeit Schichten, die sich zwar alle am selben Ort befinden (nämlich in der eigenen Überwachungslösung), aber weder eine kohärente Strategie abbilden, noch vernünftig integriert sind.
Doch ob man es glaubt oder nicht, auch hier gibt es noch Rettung. Mit einigen grundlegenden Techniken und Überwachungsdisziplinen kann man auch solch chaotische Zustände in eine Überwachungslösung verwandeln, die wertvolle Einblicke liefert. Als Ausgangslage gehen wir in diesem Artikel davon aus, dass zumindest eine Überwachungslösung in der Umgebung implementiert wurde.
Im Prinzip geht es bei der Überwachung als grundlegender IT-Disziplin darum, den IT-Experten zu helfen, der kurzfristigen, reaktiven Natur der Netzwerk-Verwaltung zu entkommen und proaktiver und strategischer zu werden. Viel zu oft werden Unternehmen jedoch durch falsche oder nicht auf ihr Umfeld und ihre Geschäftsanforderungen abgestimmte Überwachungssysteme ausgebremst. Dies führt zu unnötigen oder falschen Warnungen, die nur für Chaos und Trubel statt für Ordnung und Einblick sorgen. Die Folge ist, dass Mitarbeiter die Überwachung weniger schätzen und weniger beachten.
Damit ein Unternehmen die Effizienz seines Rechenzentrums steigern und den größten Nutzen aus den Überwachungslösungen ziehen kann, benennen wir hier die fünf wichtigsten allgemeinen Fehler beim Monitoring und was man dagegen tun kann:
1. Feste Schwellenwerte
Überwachungssysteme, die für eine Gruppe von Geräten jede Art von Alarm einzig ab einem bestimmten Wert auslösen, sind als Lösung nicht besonders geeignet. Allgemeine Schwellenwerte können zwar festgelegt werden, sind aber in den meisten Fällen unbrauchbar und oft sogar kontraproduktiv.
Selbst ein einzelner Server weist eine von Tag zu Tag unterschiedliche Auslastung auf. Ein Server, der normalerweise mit 50 Prozent CPU-Auslastung läuft, aber am Monatsende auf 95 Prozent ansteigt, liegt völlig im Rahmen. Doch feste Schwellenwerte lösen bei solchen Auslastungsspitzen Alarme aus. Deswegen erstellen viele Unternehmen mehrere Versionen derselben Warnung (CPU-Warnung für Windows IIS-DMZ; CPU-Warnung für Windows IIS-Core; CPU-Warnung für Windows Exchange CAS usw.). Aber auch in diesem Fall zeigen feste Schwellenwerte in der Regel mehr „false positives“ an als nötig.
Gegenmaßnahmen: Gut: Aktivieren Sie Schwellenwerte pro Gerät (und pro Dienst). Unabhängig davon, ob Sie dies innerhalb des Tools oder über Anpassungen vornehmen, sollten Sie letztendlich in der Lage sein, einen bestimmten Schwellenwert für jedes Gerät festzulegen. So zeigen Geräte mit einem bestimmten Schwellenwert zum richtigen Zeitpunkt Warnungen an und solche ohne Schwellenwert erst ab dem Standardwert.
Besser: Verwenden Sie vorhandene Überwachungsdaten, um Baselines für „normal“ zu bestimmen, und lassen Sie Ihre Geräte erst dann Alarm schlagen, wenn es eine Abweichung von diesen Baselines gibt. Beachten Sie, dass Sie eventuell überlegen müssen, wie Sie mit Grenzfällen umgehen. Diese benötigen meist eine zweite Bedingung, um zu definieren, wann ein Schwellenwert erreicht wird.
2. Mangelnde Überwachung des Monitoring-System
Es ist sicherlich wichtig, ein Tool oder mehrere Tools zu haben, die geschäftskritische Systeme überwachen und Warnungen anzeigen. Es ist aber ebenso wichtig, dass ein System vorhanden ist, um Probleme innerhalb der Überwachungslösung selbst zu identifizieren.
Gegenmaßnahmen: Richten Sie eine separate Überwachungslösung ein, mit der Sie den Überblick über das primäre oder das in der Produktion eingesetzte Überwachungssystem behalten. Dabei kann es sich um eine Kopie des gleichen Tools oder der gleichen Tools handeln, die Sie in der Produktion verwenden. Auch eine separate Lösung ist möglich, wie z.B. Open Source, vom Hersteller bereitgestellt usw.
Eine weitere Möglichkeit, dieses Problem anzugehen, finden Sie in der Diskussion über Labor- und Testumgebungen unter Punkt 5.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
3. Sofortwarnungen
Es gibt unzählige Gründe, warum Sofortwarnungen für Chaos in Ihrem Rechenzentrum sorgen. Gemeint ist, wenn das Überwachungssystem sofort Alarm auslöst, sobald ein bestimmter Zustand erkannt wurde. Zum einen sind Überwachungssysteme nicht unfehlbar und können „false positive“-Warnungen ausgeben, die nicht angegangen werden müssen. Zum anderen ist es nicht ungewöhnlich, dass Probleme einen Moment lang auftreten und dann verschwinden. Dennoch kann man bestimmte Probleme erst nach einer gewissen Zeit beheben. Solche Probleme kennen Sie ganz bestimmt.
Gegenmaßnahmen: Bauen Sie eine Zeitverzögerung in die Auslöselogik Ihres Überwachungssystems ein, bei der z.B. bei einer CPU-Warnung alle angegebenen Bedingungen etwa 10 Minuten lang vorhanden sein müssen, bevor eine Aktion erforderlich ist. Auslastungsspitzen, die länger als 10 Minuten dauern, erfordern einen direkten Eingriff, während alles andere eine vorübergehende Aktivitätssteigerung darstellt, die nicht unbedingt auf ein echtes Problem hindeutet.
4. Flapping oder „Sägezahnsignale“
Wenn eine Warnung wiederholt ausgelöst wird (ein Gerät, das immer wieder neu gestartet wird oder temporäre Seitendateien löscht/erstellt, sodass es in einem Moment den Schwellenwert überschreitet und im nächsten z.B. unter dem Schwellenwert liegt), wird dieser Vorgang als Flapping oder Sägezahnsignal bezeichnet.
Gegenmaßnahmen: Für diese Warnungen gibt es mehrere mögliche Problemlösungen, je nachdem, was von Ihrer Überwachungslösung unterstützt wird und welche am besten zu der jeweiligen Situation passt:
Gut: Unterdrücken von Ereignissen innerhalb eines bestimmten Zeitfensters. Das Ignorieren von doppelten Ereignissen innerhalb eines bestimmten Zeitraums ist oft alles, was Sie brauchen, um bedeutungslose Duplikate zu vermeiden.
Ebenfalls gut: Wie bereits erwähnt, können Sie eine Zeitverzögerung einbauen, um eine Selbstauflösung zu ermöglichen, falsch positive Ergebnisse zu vermeiden und andere potenzielle Probleme zu eliminieren, die nicht notwendigerweise einer Korrektur bedürfen.
Besser: Nutzen einer „Reset“-Logik. Warten sie auf ein Reset-Ereignis, bevor eine neue Warnung desselben Typs ausgelöst wird. Vermeiden Sie es, die Reset-Logik durch das Gegenteil des Auslösers zu ersetzen.
Am besten: Bidirektionale Kommunikation mit einem Ticket- oder Warnungsverwaltungssystem. Hier kommuniziert das Überwachungssystem mit dem Ticket- und/oder Warnungsüberwachungssystem, damit dieselbe Warnung für dasselbe Gerät erst ausgegeben wird, wenn das ursprüngliche Problem durch einen Menschen behoben und das Ticket geschlossen wurde.
5. Keine Labor-, Test- oder QS-Umgebungen für ihr Überwachungssystem
Wenn Ihr Überwachungssystem geschäftskritische Systeme überwacht und Warnungen ausgibt, dann ist es selbst geschäftskritisch. Trotz der Tatsache, dass viele Unternehmen bei der Evaluierung von Überwachungslösungen eine Proof-of-Concept-Umgebung einrichten, haben sie nach der Auswahl und Einführung des Produktionssystems kein kontinuierlich gewartetes Labor-, Test- oder QS-System, um die Aufrechterhaltung des Systems sicherzustellen.
Gegenmaßnahmen: Das Offensichtliche. Implementieren Sie Test-, Entwicklungs- und/oder QS-Installationen, um sicherzustellen, dass Ihr Überwachungssystem die für eine geschäftskritische Anwendung erforderliche Kontrolle hat.
Test: Eine (oft temporäre) Umgebung, in der Patches und Upgrades getestet werden können, bevor sie in der Produktion eingesetzt werden.
Entwicklung: Eine Umgebung, die die Produktion in Bezug auf Software widerspiegelt, in der jedoch Überwachungen für neue Geräte, Anwendungen, Berichte oder Warnungen eingerichtet und getestet werden können, bevor diese Lösungen in der Produktionsumgebung eingeführt werden. Und wie bereits erwähnt, ist dies der perfekte Ort, um auch Ihre Produktionsumgebung zu überwachen.
QS: Eine Umgebung, die die vorherige Version der Produktion widerspiegelt. Beim Auftreten von Problemen in der Produktion können diese nochmals überprüft werden, um zu bestätigen, ob das Problem in der letzten Revision eingeführt wurde.
Es ist sicher nicht absolut notwendig, alle drei Aspekte abzudecken, aber es lohnt sich, mindestens einen in Betracht zu ziehen. Nur, gar keinen der Aspekte zu bedenken, ist nicht gerade empfehlenswert.
Fazit
Die Geschwindigkeit des technischen Wandels im Rechenzentrum nimmt heutzutage rasend schnell zu. Dabei haben auch herkömmliche Systeme in Rechenzentren in kürzester Zeit eine beachtliche Entwicklung durchlaufen.
Leon Adato.
(Bild: SolarWinds)
Da die Komplexität mit der Erwartung wächst, dass die IT-Abteilung eines Unternehmens immer „agiler“ wird und weiterhin rund um die Uhr ein qualitativ hochwertiges Endbenutzererlebnis bieten kann (d.h. keine Störungen, Ausfälle, Probleme mit der Anwendungsleistung usw.), müssen IT-Experten der Überwachung die Priorität einräumen, die sie als grundlegende IT-Disziplin auch verdient.
Durch das Verständnis und die Bewältigung der erwähnten allgemeinen Überwachungsfehler können Sie sicherstellen, dass Ihr Unternehmen von optimierten und abgestimmten Überwachungssystemen profitiert und gleichzeitig eine proaktivere Strategie jetzt und in Zukunft ermöglichen.