Netzwerküberwachung ernst genommen

So vermeiden Sie 5 allgemeine Fehler beim Monitoring

| Autor / Redakteur: Leon Adato / Andreas Donner

Netzwerk-Monitoring und IT-Überwachung sind extrem wichtig – und dennoch werden sie oft vernachlässigt und/oder falsch gemacht
Netzwerk-Monitoring und IT-Überwachung sind extrem wichtig – und dennoch werden sie oft vernachlässigt und/oder falsch gemacht (Bild: © Ico Maker - stock.adobe.com)

Obwohl das Monitoring ein kritischer Aspekt eines jeden Vorgangs in Rechenzentren ist, bleibt es oft das schwarze Schaf unter den IT-Strategien der Unternehmen. Monitoring wird als nebensächlich betrachtet und nicht als Kernkompetenz wahrgenommen. Das muss sich ändern!

Wie wenig das Thema Netzwerk-Monitoring wertgeschätzt wird, zeigt sich an der Überwachungslösung vieler Unternehmen. Man hat oft den Eindruck, dass Monitoring-Bestandteile und Tools von einer Schar so genannter IT-Fachleute einfach lieblos und sinnfrei übereinander geklatscht wurden. So entwickeln sich im Laufe der Zeit Schichten, die sich zwar alle am selben Ort befinden (nämlich in der eigenen Überwachungslösung), aber weder eine kohärente Strategie abbilden, noch vernünftig integriert sind.

Doch ob man es glaubt oder nicht, auch hier gibt es noch Rettung. Mit einigen grundlegenden Techniken und Überwachungsdisziplinen kann man auch solch chaotische Zustände in eine Überwachungslösung verwandeln, die wertvolle Einblicke liefert. Als Ausgangslage gehen wir in diesem Artikel davon aus, dass zumindest eine Überwachungslösung in der Umgebung implementiert wurde.

Im Prinzip geht es bei der Überwachung als grundlegender IT-Disziplin darum, den IT-Experten zu helfen, der kurzfristigen, reaktiven Natur der Netzwerk-Verwaltung zu entkommen und proaktiver und strategischer zu werden. Viel zu oft werden Unternehmen jedoch durch falsche oder nicht auf ihr Umfeld und ihre Geschäftsanforderungen abgestimmte Überwachungssysteme ausgebremst. Dies führt zu unnötigen oder falschen Warnungen, die nur für Chaos und Trubel statt für Ordnung und Einblick sorgen. Die Folge ist, dass Mitarbeiter die Überwachung weniger schätzen und weniger beachten.

Damit ein Unternehmen die Effizienz seines Rechenzentrums steigern und den größten Nutzen aus den Überwachungslösungen ziehen kann, benennen wir hier die fünf wichtigsten allgemeinen Fehler beim Monitoring und was man dagegen tun kann:

1. Feste Schwellenwerte

Überwachungssysteme, die für eine Gruppe von Geräten jede Art von Alarm einzig ab einem bestimmten Wert auslösen, sind als Lösung nicht besonders geeignet. Allgemeine Schwellenwerte können zwar festgelegt werden, sind aber in den meisten Fällen unbrauchbar und oft sogar kontraproduktiv.

Selbst ein einzelner Server weist eine von Tag zu Tag unterschiedliche Auslastung auf. Ein Server, der normalerweise mit 50 Prozent CPU-Auslastung läuft, aber am Monatsende auf 95 Prozent ansteigt, liegt völlig im Rahmen. Doch feste Schwellenwerte lösen bei solchen Auslastungsspitzen Alarme aus. Deswegen erstellen viele Unternehmen mehrere Versionen derselben Warnung (CPU-Warnung für Windows IIS-DMZ; CPU-Warnung für Windows IIS-Core; CPU-Warnung für Windows Exchange CAS usw.). Aber auch in diesem Fall zeigen feste Schwellenwerte in der Regel mehr „false positives“ an als nötig.

Gegenmaßnahmen:
Gut: Aktivieren Sie Schwellenwerte pro Gerät (und pro Dienst). Unabhängig davon, ob Sie dies innerhalb des Tools oder über Anpassungen vornehmen, sollten Sie letztendlich in der Lage sein, einen bestimmten Schwellenwert für jedes Gerät festzulegen. So zeigen Geräte mit einem bestimmten Schwellenwert zum richtigen Zeitpunkt Warnungen an und solche ohne Schwellenwert erst ab dem Standardwert.

Besser: Verwenden Sie vorhandene Überwachungsdaten, um Baselines für „normal“ zu bestimmen, und lassen Sie Ihre Geräte erst dann Alarm schlagen, wenn es eine Abweichung von diesen Baselines gibt. Beachten Sie, dass Sie eventuell überlegen müssen, wie Sie mit Grenzfällen umgehen. Diese benötigen meist eine zweite Bedingung, um zu definieren, wann ein Schwellenwert erreicht wird.

2. Mangelnde Überwachung des Monitoring-System

Es ist sicherlich wichtig, ein Tool oder mehrere Tools zu haben, die geschäftskritische Systeme überwachen und Warnungen anzeigen. Es ist aber ebenso wichtig, dass ein System vorhanden ist, um Probleme innerhalb der Überwachungslösung selbst zu identifizieren.

Gegenmaßnahmen:
Richten Sie eine separate Überwachungslösung ein, mit der Sie den Überblick über das primäre oder das in der Produktion eingesetzte Überwachungssystem behalten. Dabei kann es sich um eine Kopie des gleichen Tools oder der gleichen Tools handeln, die Sie in der Produktion verwenden. Auch eine separate Lösung ist möglich, wie z.B. Open Source, vom Hersteller bereitgestellt usw.

Eine weitere Möglichkeit, dieses Problem anzugehen, finden Sie in der Diskussion über Labor- und Testumgebungen unter Punkt 5.

3. Sofortwarnungen

Es gibt unzählige Gründe, warum Sofortwarnungen für Chaos in Ihrem Rechenzentrum sorgen. Gemeint ist, wenn das Überwachungssystem sofort Alarm auslöst, sobald ein bestimmter Zustand erkannt wurde. Zum einen sind Überwachungssysteme nicht unfehlbar und können „false positive“-Warnungen ausgeben, die nicht angegangen werden müssen. Zum anderen ist es nicht ungewöhnlich, dass Probleme einen Moment lang auftreten und dann verschwinden. Dennoch kann man bestimmte Probleme erst nach einer gewissen Zeit beheben. Solche Probleme kennen Sie ganz bestimmt.

Gegenmaßnahmen:
Bauen Sie eine Zeitverzögerung in die Auslöselogik Ihres Überwachungssystems ein, bei der z.B. bei einer CPU-Warnung alle angegebenen Bedingungen etwa 10 Minuten lang vorhanden sein müssen, bevor eine Aktion erforderlich ist. Auslastungsspitzen, die länger als 10 Minuten dauern, erfordern einen direkten Eingriff, während alles andere eine vorübergehende Aktivitätssteigerung darstellt, die nicht unbedingt auf ein echtes Problem hindeutet.

4. Flapping oder „Sägezahnsignale“

Wenn eine Warnung wiederholt ausgelöst wird (ein Gerät, das immer wieder neu gestartet wird oder temporäre Seitendateien löscht/erstellt, sodass es in einem Moment den Schwellenwert überschreitet und im nächsten z.B. unter dem Schwellenwert liegt), wird dieser Vorgang als Flapping oder Sägezahnsignal bezeichnet.

Gegenmaßnahmen:
Für diese Warnungen gibt es mehrere mögliche Problemlösungen, je nachdem, was von Ihrer Überwachungslösung unterstützt wird und welche am besten zu der jeweiligen Situation passt:

Gut: Unterdrücken von Ereignissen innerhalb eines bestimmten Zeitfensters. Das Ignorieren von doppelten Ereignissen innerhalb eines bestimmten Zeitraums ist oft alles, was Sie brauchen, um bedeutungslose Duplikate zu vermeiden.

Ebenfalls gut: Wie bereits erwähnt, können Sie eine Zeitverzögerung einbauen, um eine Selbstauflösung zu ermöglichen, falsch positive Ergebnisse zu vermeiden und andere potenzielle Probleme zu eliminieren, die nicht notwendigerweise einer Korrektur bedürfen.

Besser: Nutzen einer „Reset“-Logik. Warten sie auf ein Reset-Ereignis, bevor eine neue Warnung desselben Typs ausgelöst wird. Vermeiden Sie es, die Reset-Logik durch das Gegenteil des Auslösers zu ersetzen.

Am besten: Bidirektionale Kommunikation mit einem Ticket- oder Warnungsverwaltungssystem. Hier kommuniziert das Überwachungssystem mit dem Ticket- und/oder Warnungsüberwachungssystem, damit dieselbe Warnung für dasselbe Gerät erst ausgegeben wird, wenn das ursprüngliche Problem durch einen Menschen behoben und das Ticket geschlossen wurde.

5. Keine Labor-, Test- oder QS-Umgebungen für ihr Überwachungssystem

Wenn Ihr Überwachungssystem geschäftskritische Systeme überwacht und Warnungen ausgibt, dann ist es selbst geschäftskritisch. Trotz der Tatsache, dass viele Unternehmen bei der Evaluierung von Überwachungslösungen eine Proof-of-Concept-Umgebung einrichten, haben sie nach der Auswahl und Einführung des Produktionssystems kein kontinuierlich gewartetes Labor-, Test- oder QS-System, um die Aufrechterhaltung des Systems sicherzustellen.

Gegenmaßnahmen:
Das Offensichtliche. Implementieren Sie Test-, Entwicklungs- und/oder QS-Installationen, um sicherzustellen, dass Ihr Überwachungssystem die für eine geschäftskritische Anwendung erforderliche Kontrolle hat.

Test: Eine (oft temporäre) Umgebung, in der Patches und Upgrades getestet werden können, bevor sie in der Produktion eingesetzt werden.

Entwicklung: Eine Umgebung, die die Produktion in Bezug auf Software widerspiegelt, in der jedoch Überwachungen für neue Geräte, Anwendungen, Berichte oder Warnungen eingerichtet und getestet werden können, bevor diese Lösungen in der Produktionsumgebung eingeführt werden. Und wie bereits erwähnt, ist dies der perfekte Ort, um auch Ihre Produktionsumgebung zu überwachen.

QS: Eine Umgebung, die die vorherige Version der Produktion widerspiegelt. Beim Auftreten von Problemen in der Produktion können diese nochmals überprüft werden, um zu bestätigen, ob das Problem in der letzten Revision eingeführt wurde.

Es ist sicher nicht absolut notwendig, alle drei Aspekte abzudecken, aber es lohnt sich, mindestens einen in Betracht zu ziehen. Nur, gar keinen der Aspekte zu bedenken, ist nicht gerade empfehlenswert.

Fazit

Die Geschwindigkeit des technischen Wandels im Rechenzentrum nimmt heutzutage rasend schnell zu. Dabei haben auch herkömmliche Systeme in Rechenzentren in kürzester Zeit eine beachtliche Entwicklung durchlaufen.

Leon Adato.
Leon Adato. (Bild: SolarWinds)

Da die Komplexität mit der Erwartung wächst, dass die IT-Abteilung eines Unternehmens immer „agiler“ wird und weiterhin rund um die Uhr ein qualitativ hochwertiges Endbenutzererlebnis bieten kann (d.h. keine Störungen, Ausfälle, Probleme mit der Anwendungsleistung usw.), müssen IT-Experten der Überwachung die Priorität einräumen, die sie als grundlegende IT-Disziplin auch verdient.

Durch das Verständnis und die Bewältigung der erwähnten allgemeinen Überwachungsfehler können Sie sicherstellen, dass Ihr Unternehmen von optimierten und abgestimmten Überwachungssystemen profitiert und gleichzeitig eine proaktivere Strategie jetzt und in Zukunft ermöglichen.

Über den Autor

Leon Adato ist Head Geek bei SolarWinds.

Kommentare werden geladen....

Kommentar zu diesem Artikel

Der Kommentar wird durch einen Redakteur geprüft und in Kürze freigeschaltet.

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45557029 / Head Geeks Speech)