Grundwissen für Admins in hybriden Infrastrukturumgebungen Netzwerkausfälle in der Cloud diagnostizieren

Autor / Redakteur: Leon Adato / Dipl.-Ing. (FH) Andreas Donner

Die Überwachung und Ausfallabsicherung von Netzwerken in hybriden Infrastrukturen ist schwierig. Denn meist ist weder klar, wer hier eigentlich die Kontrollhoheit besitzt, noch kann klar zwischen Ausfällen und nicht verfügbaren Diensten unterschieden werden. Auf was kommt es also an für den Netzwerk-Admin in hybriden Umgebungen.

Anbieter zum Thema

Die Administration von Netzwerken mit Cloud-Anschluss bringt besondere Herausforderungen mit sich.
Die Administration von Netzwerken mit Cloud-Anschluss bringt besondere Herausforderungen mit sich.
(Bild: geralt - Pixabay - [gemeinfrei] / CC0 )

Wenn IT-Experten an Netzwerkausfälle denken, gehen ihnen oftmals Wörter wie „Panik“, „Angst“, „Weltuntergang“ durch den Kopf. Na gut, das Letzte ist vielleicht ein wenig dramatisch, doch je wichtiger Technologien und IT-Funktionen für den Geschäftserfolg werden, desto weniger können IT-Experten es sich leisten, Ausfallzeiten auf die leichte Schulter zu nehmen. Insbesondere jetzt, wo die Cloud und hybride IT-Umgebungen eine immer größere Bedeutung erlangen, wird der Gedanke an Ausfallzeiten immer beängstigender.

Woran liegt das? Nun, bereits die Diagnose von Ausfallzeiten in der Cloud bringt – was die Netzwerke betrifft – zwei große Herausforderungen mit sich: Eigentümerschaft/Kontrolle und die Unterscheidung zwischen Ausfallzeiten und der Nichtverfügbarkeit von Diensten. Egal, welches Problem den Ausfall verursacht und wer verantwortlich ist – letztendlich trägt der Netzwerktechniker die Verantwortung dafür, dass Dienste ordnungsgemäß funktionieren.

In den folgenden Abschnitten sollen diese Herausforderungen genauer betrachtet werden und es werden Punkte aufgezeigt, wie Netzwerktechniker die Probleme durch Ausfallzeiten in der hybriden IT erfolgreich bewältigen können.

Netzwerkausfälle in der Cloud

Cloud-Umgebungen wie Salesforce oder Dropbox sind Dienste, die in unseren Netzwerken betrieben werden. Jedoch liegen die Eigentumsrechte hier beim Dienstanbieter und nicht bei einem vom Unternehmen beschäftigten IT-Experten. Man kann die Situation mit der folgenden vergleichen: Man schaut zuhause fern und plötzlich ist die Verbindung unterbrochen. Auch wenn man selbst die Hardware besitzt, ist es der Kabelanbieter, der die Kontrolle hat und das Problem mit dem Service lösen muss. Dieses frustrierende Gefühl, das dieser Mangel an Kontrolle mit sich bringt, ist für viele Privatleute nichts Neues.

Für IT-Experten ist dies Neuland: Es ist deutlich einfacher, Ausfallzeiten für lokale Dienste oder für Server auf Azure oder AWS basierenden Diensten zu diagnostizieren, denn in diesen Fällen gehört einem zumindest ein Teil der Infrastruktur selbst und es gibt eine einheitliche Datenbasis („Single Source of Truth“). Im Gegensatz dazu gibt es z.B. bei Dropbox üblicherweise nicht einmal die Transparenz, die man benötigen würde, um überhaupt mit einer Problemdiagnose zu beginnen.

Und nicht nur das: Die Betreiber und Dienstanbieter haben außerdem die Kontrolle darüber, welche Pakete sie priorisieren und wie diese Pakete geroutet werden. Das bedeutet, sie können ihre Dienste jederzeit zu einer beliebigen Hardwarekomponente irgendwo in der Cloud verschieben, ohne dass IT-Experten in den Unternehmen dies mitbekommen. Das kann dazu führen, dass Netzwerkdienste langsamer werden. Es steht außer Frage, dass die Verwaltung für IT-Netzwerkexperten in einer solchen Situation ziemlich schwierig wird.

Die zweite Herausforderung besteht darin, herauszufinden, ob wirklich Ausfallzeiten das Problem sind oder ob ein Dienst nicht verfügbar ist. Die Cloud ist fast schon per Definition hoch redundant. Die Zahl der Verbindungen und Routen im Netzwerk ist unbegrenzt, es gibt zahlreiche Netzwerkpfade zu Geräten und im Netzwerk sind zahlreiche Geräte aktiv. Außerdem gibt es ein Cluster von Servern, die Dienste bereitstellen und die Last auf jeder Anwendungsebene ausgleichen – von der Web-Darstellung über die Datenbank bis hin zum Speicher.

All dies führt zu einer Umgebung der Netzwerkredundanzen, was bedeutet, dass man herausfinden muss, ob es wirklich ein kritisches Problem darstellt, wenn ein Netzwerkport auf einem Router ausfällt (So viel vorweg: Das ist nur sehr selten der Fall). Die Grenzen zwischen Ausfallzeiten und nicht betriebsbereiten Diensten sind verschwommen und die IT muss sich unbedingt dessen annehmen, je weiter das Zeitalter der hybriden IT fortschreitet.

Netzwerkausfälle überwinden

Unabhängig davon, ob die Herausforderung in den Eigentumsverhältnissen liegt oder darin, das Problem korrekt zu diagnostizieren: Fest steht, dass Netzwerktechniker in Zeiten der hybriden IT einen Überblick über ihre Netzwerke haben müssen, und das sowohl lokal als auch in der Cloud. Letztendlich läuft alles auf die altbewährte Praxis einer robusten Überwachung hinaus, die lediglich für die neue Welt der hybriden IT entsprechend angepasst wird.

Heutzutage reicht es nicht aus, einfach dem Cloud-Anbieter oder Benutzer zu vertrauen. Es gibt zahlreiche Faktoren, die Ursache der Langsamkeit oder der Ausfallzeiten sein könnten, und es liegt an den IT-Experten, diese Ursachen herauszufinden: Ist es ein instabiler Switch, ein langsamer Speicher, ein fehlerhafter Pfad durch das ISP-Netzwerk oder etwas ganz anderes? Ein guter Ausgangspunkt ist es, der Tatsache Glauben zu schenken, dass der Endbenutzer tatsächlich Ausfälle irgendeiner Art bemerkt, und es als die eigene Pflicht begreift, das Problem korrekt zu diagnostizieren.

Nur zu leicht kommt es durch unsere fehlende Kontrolle über jede Schicht des Stacks zu gegenseitigen Schuldzuweisungen mit dem Cloud-Dienstanbieter. Hier ist eine gesunde Skepsis angebracht: Es ist zwar in Ordnung, zu glauben, dass der Cloud-Dienstanbieter alles unter Kontrolle hat, doch es ist gleichermaßen vernünftig, dem Problem selbst auf den Grund zu gehen – schließlich liegt es letztendlich an uns, für die ordnungsgemäße Funktion des Netzwerks zu sorgen.

Best Practices zum Diagnostizieren von Ausfallzeiten in der Cloud

Das eigene Netzwerk kennen – IT-Experten sollten eine Bestandsliste ihrer Netzwerke pflegen und jederzeit wissen, wo sich ihre Geräte befinden und was sie gerade tun. Dabei sollte man nicht außer Acht lassen, dass die über Salesforce, Dropbox usw. laufenden Dienste genauso in der eigenen wie in der Verantwortung des Anwendungsteams liegen.

Erkennungstools und Warnungen einsetzen – Prozesse, die anzeigen, wenn Geräte neu im Netzwerk sind, ermöglichen eine genaue Kenntnis der gesamten Netzwerklandschaft und lassen feststellen, wann und wo Probleme auftreten. Ohne derartige Tools verlieren IT-Experten den Überblick über ihr Netzwerk und die Fehlerhebung wird nahezu unmöglich.

Netzwerkauslastung und Betriebszeit von Diensten als gleichberechtigt ansehen – Netzwerkadministratoren von heute sind nicht nur für die Verkabelungen und Signale des Netzwerks verantwortlich, sondern auch für die Verfügbarkeit von Diensten, damit Endbenutzer auf alle Anwendungen zugreifen können, die sie für ihre Tätigkeit brauchen. IT-Experten müssen sich darauf konzentrieren, Netzwerkprobleme zu beheben, und das Sicherstellen der Betriebsbereitschaft zur obersten Priorität erklären. Die IT und insbesondere das Netzwerk sind ein integraler Bestandteil des Geschäftserfolgs.

Der Übergang zu hybriden IT-Umgebungen kann etwas beängstigend erscheinen: IT-Netzwerkexperten geben einen Teil der Kontrolle an Cloud-Dienstanbieter ab, doch im Falle von Ausfällen oder Netzwerkproblemen haben sie immer noch die gleiche Verantwortung gegenüber ihrem Unternehmen. Mithilfe robuster Überwachungsmethoden erhalten IT-Experten unabhängig vom Speicherort den notwendigen Überblick über ihre Netzwerke, um zu erkennen, welche Netzwerkpfade und kritischen Bereiche ihre Aufmerksamkeit erfordern.

Leon Adato.
Leon Adato.
(Bild: SolarWinds)

Fazit

Nur weil man keine direkte Kontrolle über ein Problem hat, heißt das noch lange nicht, dass man es nicht letztendlich doch in den Griff bekommen kann – und genau das ist die Aufgabe als Netzwerkexperten in Zeiten der hybriden IT.

Über den Autor

Leon Adato ist Head Geek bei SolarWinds.

(ID:44800181)