Dark Data erhöht Risiken für die Datensicherheit Wer Daten nicht klassifiziert, kann sie auch nicht schützen

Ein Gastbeitrag von Fabian Glöser 5 min Lesedauer

Anbieter zum Thema

Bis zu 80 Prozent der Unternehmensdaten gelten als Dark Data: Sie liegen unentdeckt in Backups, Shares und Cloud-Speichern, blockieren Speicher­platz und verbergen sensible Inhalte. Erst Data Discovery und automatisier­te Klassifizierung schaffen Sichtbarkeit, entfernen Altlasten und bilden die Basis für Zero Trust, abgestufte Richtlinien und gezielte Schutzmaßnahmen.

Unternehmen verlieren den Überblick über ihre Daten. Um sensible Informationen angemessen schützen zu können, müssen sie alle ihre Daten erst sorgfältig klassifizieren.(Bild: ©  mnirat - stock.adobe.com)
Unternehmen verlieren den Überblick über ihre Daten. Um sensible Informationen angemessen schützen zu können, müssen sie alle ihre Daten erst sorgfältig klassifizieren.
(Bild: © mnirat - stock.adobe.com)

Viele Unternehmen haben den Überblick verloren, welche Daten sie überhaupt besitzen – bis zu 80 Prozent ihres Datenbestandes ist Dark Data. Wollen sie sensible Informationen, die sich darin verstecken, zuverlässig schützen, kommen sie um eine lückenlose Data Discovery und eine exakte Datenklassifizierung nicht herum.

Neben Menschen generieren inzwischen auch Anwendungen und Maschinen unaufhörlich Daten, sodass die Datenbestände von Unternehmen in nie dagewesener Geschwindigkeit wachsen. Schnell geht da der Überblick verloren, welche Daten ein Unternehmen überhaupt besitzt – der größte Teil bleibt im Dunkeln, was aus verschiedenen Gründen problematisch ist. Zum einen ist ein nicht unerheblicher Teil der Dateien oder Dateiinhalte schlicht redundant, veraltet oder überflüssig, hat also keinerlei Wert und könnte eigentlich gelöscht werden. Stattdessen belegen die Daten jedoch wertvollen Speicherplatz und verursachen dadurch unnötig Kosten. Zudem landen sie regelmäßig in Backups und Snapshots und verlängern auf diese Weise die Sicherungs- und Wiederherstellungszeiten, die eigentlich möglichst kurz ausfallen sollten.

Zum anderen enthält der riesige Berg an Dark Data, der bis zu 80 Prozent des gesamten Datenbestandes ausmachen kann, viele sensible Daten. Das können personenbezogene Daten von Kunden oder Mitarbeitern sein, die nicht auf Systemen außerhalb der EU gespeichert und verarbeitet werden dürfen, oder geistiges Eigentum und vertrauliche interne Informationen, die das Unternehmen nicht verlassen sollen – von der Präsentation mit der Firmenstrategie über Excel-Tabellen mit Angebotskalkulationen bis hin zu Konstruktionszeichnungen und Quellcode. Wissen Unternehmen nicht, auf welchen Clients, Netzwerksystemen und Cloud-Speichern diese Daten abgelegt sind, wer auf sie zugreift und über welche Kanäle sie geteilt werden, lassen sie sich nicht zuverlässig schützen. Es besteht die Gefahr, dass sie unbemerkt abfließen – sei es, weil Cyberkriminelle die Daten stehlen oder weil Mitarbeiter sie versehentlich an einen falschen E-Mail-Empfänger verschicken, über die Cloud austauschen oder mit einem KI-Tool auswerten. Vor allem solche Sicherheitsverletzungen durch Mitarbeiter haben Unternehmen bislang noch viel zu selten auf dem Schirm.

Bestandsaufnahme für Daten

Mit Schulungen können Unternehmen zwar das Bewusstsein ihrer Mitarbeiter für Datensicherheit schärfen und die internen Regelungen zum Umgang mit sensiblen Daten anschaulich vermitteln. Einen zuverlässigen Schutz vor Datenabflüssen garantiert das allerdings nicht, da Unachtsamkeiten und Fehler im hektischen Arbeitsalltag immer wieder passieren und Daten natürlich auch über ein Datenleck abfließen können. Daher müssen Unternehmen mit Richtlinien technisch regeln, wer was mit welchen Daten machen darf. Das ist jedoch nur möglich, wenn sie ihren Datenbestand genau kennen. Letztlich benötigen sie eine lückenlose Data Discovery und eine genaue Datenklassifizierung, um Sichtbarkeit herzustellen und die Richtlinien auf wirklich alle Daten und Kanäle anzuwenden.

Im Rahmen der Data Discovery werden sämtliche Speicherorte des Unternehmens gescannt und die abgelegten Daten erfasst, um einen umfassenden Katalog zu erstellen. Da auf diese Weise redundante, veraltete und überflüssige Informationen sichtbar werden, lässt sich der Datenbestand anschließend effizient von diesen befreien. Zudem zeigt die Data Discovery auf, wer auf Dateien zugreifen kann und wann das letzte Mal auf sie zugegriffen wurde. Das hilft, Datenrisiken zu bewerten und übermäßige Berechtigungen zu entfernen – ein wichtiger Schritt bei der Umsetzung von Zero Trust. Hier wird die Angriffsfläche dadurch verkleinert, dass Mitarbeiter nur exakt die Zugriffsrechte erhalten, die sie für ihre Tätigkeiten benötigen. So können Cyberkriminelle, die ein Gerät oder einen Account kompromittiert haben, nur wenig Schaden anrichten.

Durchblick im Datendschungel

Da nicht alle Dateien und Informationen denselben Schutzbedarf haben, folgt im nächsten Schritt eine detaillierte Datenklassifizierung. Früher war eine solche äußerst aufwendig, da Mitarbeiter die einzelnen Daten manuell den verschiedenen Kategorien zuordnen mussten. Inzwischen ist jedoch eine weitgehende Automatisierung möglich – mit klassischen Regeln und Regular Expressions, um Inhalte zu filtern, und nicht zuletzt dank KI.

Dabei ist KI nur der Oberbegriff für einen ganze Reihe unterschiedlicher Technologien, die die Analyse der Daten übernehmen: Small Language Models (SLM) etwa verarbeiten natürliche Sprache und helfen damit, die Inhalte von z.B. Dateien, E-Mails und Chats zu verstehen. Anders als Large Language Models (LLM) besitzen sie kein breites Allgemeinwissen, sondern sind hochspezialisiert – in diesem Fall auf Datenklassifizierungen. Dadurch liefern sie bessere Ergebnisse, haben aber nur einen Bruchteil der Größe von LLMs und beanspruchen somit deutlich weniger IT-Ressourcen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Darüber hinaus kommen sogenannten „Bag of Words“-Modelle zum Einsatz, die die Häufigkeit von Wörtern in Dateien untersuchen, was bei der thematischen Einordnung hilft und die Genauigkeit der Klassifizierung verbessert. Deep Neuronal Network Classifiers wiederum übernehmen eine qualitative Bewertung der Inhalte, und statistische Verfahren aus dem Machine Learning, etwa Bayessches Lernen, liefern Vorhersagen, die die Klassifizierungsergebnisse verfeinern. Basierend auf den Analysen werden die Daten dann bestimmten Kategorien und Unterkategorien zugeordnet und erhalten Tags.

Sicherheit passend zum Schutzbedarf

Erst mit der Kategorisierung und Verschlagwortung ist es Unternehmen möglich, granulare Richtlinien für den Schutz der Daten zu definieren. Dabei ist allerdings nicht nur entscheidend, um welche Art von Daten es sich handelt, sondern auch, was mit ihnen geschieht – das interne Teilen einer Kundenliste beispielsweise ist weniger riskant als deren Versand an einen externen Empfänger. Dementsprechend müssen Sicherheitslösungen in der Lage sein, abgestufte Maßnahmen einzuleiten – angefangen bei Warnhinweisen, die Mitarbeiter auf eine mögliche leichte Verletzung der Datensicherheit hinweisen, über das automatische Aktivieren einer Verschlüsselung bis hin zum Blockieren der Aktion. Auf diese Weise lässt sich das Sicherheitsniveau an das jeweilige Risiko anpassen und Mitarbeiter werden im Arbeitsalltag nicht durch restriktive Maßnahmen auf breiter Front behindert.

Zu einer Herausforderung können dabei jedoch heterogene Security-Landschaften werden, in denen verschiedene Tools über die einzelnen Datenspeicher und Kanäle wachen. Die unterschiedlichen Managementoberflächen und individuellen Regelsätze erhöhen nicht nur den Verwaltungsaufwand, sondern können leicht zu inkonsistenten Richtlinien führen, die Datenschutzverletzungen und Datenabflüsse begünstigen. Ein Plattform-Ansatz, bei dem alle Sicherheitslösungen auf einen einzigen Richtliniensatz zugreifen, den Security-Teams zentral pflegen, verhindert das.

Ergänzend zur Datenklassifizierung kann zudem ein sogenanntes Fingerprinting die wertvollsten Daten eines Unternehmens besonders einfach schützen. Hierfür stellen Fachbereiche wichtige Dokumente wie Verträge, Personaldaten, Finanzinformationen, Kundenlisten, Konstruktionszeichnungen und selbst geschrieben Code bereit. Die Datensicherheitslösung generiert Fingerabdrücke dieser Daten, anhand derer sie jederzeit wiedererkannt werden – etwa, wenn sie an neuen Speicherorten auftauchen oder via E-Mail verschickt werden. Und das selbst dann, wenn es sich nur um Teile der Originaldokumente oder einen Screenshot davon handelt.

Datensicherheit als langfristige Aufgabe

Wollen Unternehmen dauerhaft ein hohes Datensicherheitsniveau erreichen, müssen sie Data Discovery und Datenklassifizierung als fortwährende Aufgabe verstehen – schließlich werden bestehende Daten kontinuierlich bearbeitet, kopiert und verschoben, und es kommen stetig neue Daten hinzu. Nur wenn sie alle Speicherorte regelmäßig scannen, ihren Datenkatalog aktuell halten und neue oder veränderte Daten sorgfältig klassifizieren, können sie sensible Informationen zuverlässig schützen.

Über den Autor: Fabian Glöser ist Manager Sales Engineering Central-, Eastern- & Northern-Europe bei Forcepoint.

(ID:50686887)