Verfügbarkeit ist heute mehr als bloßes "Up and Running"

Warum ein "Network Management & Monitoring"-Tool Pflicht ist

Seite: 3/3

Anbieter zum Thema

Automatisierung

Eine der am stärksten unterschätzten Funktionen eines leistungsfähigen NMS-Produkts ist die Möglichkeit, automatisch auf auslösende Ereignisse zu reagieren. Ein Datenträger ist voll? Warum versuchen Sie nicht, den temporären Ordner zu löschen, bevor Sie den Techniker um 2 Uhr nachts alarmieren? Im schlimmsten Fall funktioniert das Löschen nicht und die Warnung wird beim nächsten Zyklus ausgelöst. In vielen Fällen jedoch (vom Neustart eines abgestürzten Anwendungsdienstes bis hin zur Verteilung der Auslastung auf einem Servercluster) ermöglicht der Einsatz von NMS eine blitzschnelle Reaktion auf Fehler, wodurch wiederum Ausfallzeiten reduziert oder sogar eliminiert werden.

Lernen von Ausfällen

Ausfälle passieren – trotz aller Bemühungen. Sie sollten daher jeden kritischen Ausfall als eine Chance betrachten. Ein solides NMS erfasst ein breites Spektrum an Messdaten, aber nicht alle diese Messdaten können 1:1 einer Warnung zugeordnet werden. Bestimmen Sie nach einem Ausfall, ob Sie über die richtigen Daten verfügten und diese einfach nicht in eine Warnung umgesetzt werden konnten, oder ob die Schlüsselindikatoren nicht erfasst wurden – in diesem Fall haben Sie die Möglichkeit, einen zusätzlichen Monitor hinzufügen.

Kenntnis der Protokolle

Ein gutes NMS verfügt über mehrere Methoden, um Daten in der Umgebung zu erfassen. Hardwaredaten können mithilfe von SNMP (bspw. über den SolarWinds Network Performance Monitor) erfasst werden. Anhand dieser Daten können Sie beispielsweise erkennen, dass eine WAN-Schnittstelle 10 Gigabit an Daten pro Sekunde überträgt. Sie wissen aber nicht, wohin dieser Datenverkehr weitergeleitet wird. Hierfür können Sie das NetFlow-Protokoll verwenden. Es zeigt Ihnen, welchen Anteil Datenbankanfragen vom Onlinebestellungs-Webserver, welchen Anteil Systemsicherungen und welchen Anteil die Daten von Ihrem Kollegen Hans aus der Buchhaltung pro Stunde an diesen 10 Gbps ausmachen.

Auf Auslösern basierende Protokolle wie beispielsweise Traps und Syslog versenden Daten nur bei wichtigen Ereignissen. Dies hilft zwar nicht bei forensischen Analysen, liefert aber möglicherweise Einblicke in Ereignisse, die auf andere Weise nicht zu erkennen sind.

Für den Sprachdatenverkehr gibt es ein eigenes Protokoll, IPSLA, mit einer Fülle von Informationen, die von Jitter bis hin zur eigentlichen Anrufqualität an verschiedenen Punkten des Netzwerks reichen.

Schließlich unterstützen manche NMS-Lösungen die Analyse der Pakete im Netzwerk in Echtzeit und berechnen den Zeitaufwand, bis ein Benutzer Informationen von einem internen System wie ERP oder aber einem externen System wie SalesForce.com erhält. Mithilfe derartiger Techniken können Sie schnell die Frage „wird das Problem (langsame Reaktionszeit) durch die Anwendung oder das Netzwerk verursacht?“ beantworten und mit der Behebung des Problems wesentlich schneller beginnen.

Leon Adato
Leon Adato
(Bild: SolarWinds)

Fazit

Die Reduzierung von Ausfallzeiten und die Verbesserung der Reaktionsfähigkeit von Anwendungen können sich als einfach erweisen, wenn Sie die oben erwähnten Faktoren berücksichtigen. Sie müssen nicht nur Ihre wichtigen Ressourcen und kritischen Faktoren überwachen, sondern müssen sich auch mit normalen und problematischen Verhaltensweisen auskennen. Wenn Sie über die geeigneten Tools für die Server- und Anwendungsüberwachung in Ihrem Netzwerk verfügen, wird diese Aufgabe sogar noch einfacher.

Über den Autor

Leon Adato ist Head Geek bei SolarWinds.

(ID:43047151)