Schutz sensibler Informationen trotz KI Geht dich gar nichts an, sagt der Chatbot

Ein Gastbeitrag von Franz Kögl 4 min Lesedauer

Anbieter zum Thema

Der Schutz sensibler Unternehmensdaten ist ein Dauerbrenner. Durch den Hype um generative KI sind sie derzeit besonders gefährdet. Bei der Identifizierung und beim Schutz kritischer Informationen spielen Suchtechnologien eine Schlüsselrolle – auch in der Welt der GenAI.

Schützenswerte Informationen im Unternehmen zu finden ist gar nicht so einfach.(Bild:  Somchai - stock.adobe.com)
Schützenswerte Informationen im Unternehmen zu finden ist gar nicht so einfach.
(Bild: Somchai - stock.adobe.com)

Dass Unternehmen sensible Daten schützen sollten, liegt auf der Hand. Wenn sie geistiges Eigentum oder persönliche Informationen verlieren, drohen ihnen erhebliche Konsequenzen: empfindliche Geldstrafen, ein irreparable Reputationsverlust oder sogar existenzbedrohende Umsatzeinbußen.

Um das zu verhindern, müssen Unternehmen aber erst einmal wissen, welche sensiblen Daten sie überhaupt haben und wo sie sich befinden. Das ist alles andere als trivial, denn solche Informationen liegen nicht nur transparent in strukturierter Form in den Datenbanken von ERP- oder CRM-Systemen vor. Sie befinden sich auch in Files mit unstrukturierten Daten wie E-Mails, Textdateien oder Tabellen. Außerdem sind sie über heterogene IT-Systeme und Speicherorte verteilt: von internen Filesystemen über Unternehmensportale oder Wikis bis hin zu Cloud-Plattformen.

Sensible Inhalte automatisiert erkennen und labeln

Ein schlagkräftiges Tool zur Lösung dieses Problems ist Enterprise Search. So eine Software ist per Definition für die unternehmensweite Suche nach Informationen gemacht und bringt dadurch Funktionen mit, die sich auch hervorragend für Data Discovery und Data Classification eignen. Enterprise Search kann die unterschiedlichsten Datenquellen anbinden, seien es strukturierte oder unstrukturierte Daten, Quellen im eigenen Unternehmen oder in der Cloud. Mit Technologien wie fortgeschrittener Textanalyse, Machine Learning und Deep Learning ist sie in der Lage, die Inhalte von Dokumenten thematisch zu erfassen.

Unternehmen haben dadurch die Möglichkeit, Dokumente automatisiert zu erkennen und zu klassifizieren, die internen Compliance-Regeln oder regulatorischen Vorgaben unterliegen. Die Enterprise Search speichert die Klassifikation in Form von Metadaten an den jeweiligen Dokumenten und ermöglicht es Unternehmen damit, Dateien ausfindig zu machen und zu kennzeichnen, die geistiges Eigentum wie Patente und Erfindungen enthalten, unter gesetzliche Vorgaben zur Geheimhaltung und Exportkontrolle fallen oder persönliche Informationen gemäß DSGVO aufweisen. Im Zusammenspiel mit Datensicherheitssystemen können sie anschließend technische Lösungen implementieren, die etwa das Hochladen solcher Dateien in die Cloud unterbinden oder den Zugang der Mitarbeiter einschränken – oder die Daten vor dem Hochladen pseudonymisieren.

RAG sorgt bei generativer KI für Datenschutz „by Design“

Durch den Hype um generative KI sind sensible Daten aktuell besonders bedroht. Viele Unternehmen möchten von den unbestreitbaren Vorzügen dieser Technologie profitieren und implementieren Chatbots, die organisationseigene Inhalte verarbeiten. Im Eifer des Gefechts übersehen sie dabei oft, dass auf diesem Weg auch schützenswerte Informationen an nicht autorisierte Mitarbeiter, Kunden oder Interessenten gelangen können.

Auch dieses Problem können Unternehmen mit der Hilfe von Enterprise Search lösen. Als Königsweg für den Einsatz von GenAI mit Unternehmensdaten gilt die so genannte Retrieval Augmented Generation, kurz RAG. Dabei handelt es sich um nichts anderes als generative KI, die in Suchtechnologien integriert ist. Bei Anfragen an einen Chatbot durchsuchen die Technologien einer Enterprise Search die organisationseigenen Daten nach relevanten Informationen und Passagen – und zwar nur die, auf die Mitarbeitende zugriffsberechtigt sind - und stellen sie der generativen KI zur Generierung der Antwort zur Verfügung. Diese Architektur liefert also nur rechtegeprüfte Textpassagen an das Sprachmodell, um damit mit nachvollziehbarem Quellenbezug Antworten oder Zusammenfassungen zu erstellen. RAG minimiert dadurch auch das Risiko der Generierung von Ungenauigkeiten oder gar Halluzinationen aus dem Sprachmodell. Damit sorgt sie automatisch für den Schutz sensibler Daten.

Zugriffsrechte werden bereits bei der Indexierung berücksichtigt

Der Grund dafür liegt in der Funktionsweise von Enterprise Search. Um Informationen auffindbar zu machen, indiziert diese Daten und Dokumente und reichert sie an, um einen linguistisch normalisierten Volltextindex aufzubauen. Zudem erzeugt sie numerische Darstellungen (Embeddings bzw. Vektoren) von Textabschnitten, die deren Inhalte repräsentieren. Dadurch ist die Software dann in der Lage, Dokumente oder Passagen zu identifizieren, die inhaltlich in einem engen Verhältnis zu einer Suchanfrage stehen. Eine geeignete Software bringt ein durchgängiges Rechte- und Rollenmanagement mit, kann dadurch bereits bei der Indexierung Zugriffsrechte berücksichtigen und diese bei der Suche und Ausgabe der Ergebnisse automatisch heranziehen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Übertragen auf die RAG-Architektur bedeutet das: Wenn ein Nutzer eine Anfrage an einen Chatbot stellt, filtern die Suchtechnologien von Anfang an nur Inhalte heraus und stellen sie der generativen KI für die Erzeugung der Antwort zur Verfügung, für die der Nutzer auch berechtigt ist. Der Schutz sensibler Informationen ist bei einer RAG-Architektur also quasi „by Design“ in das Gesamtsystem integriert.

Inhalte anonymisieren und pseudonymisieren

Aber auch bei der Implementierung gezielter Sicherheitsmaßnahmen kann RAG den Unternehmen wertvolle Dienste leisten. So ermöglicht ihnen die Kombination aus Suchtechnologien und generativer KI spezielle Schutzworkflows für sensible Informationen. Generative KI lässt sich dabei mit entsprechenden Prompts so einstellen, dass sie Inhalte anonymisiert oder pseudonymisiert. Die Suchtechnologie ist in der Lage, beispielsweise personenbezogene Daten wie Namen, Adressen, Telefonnummern oder IP-Adressen zu identifizieren und die generative KI kann diese Daten dann durch Platzhalter oder synthetische Daten ersetzen. Das ermöglicht es Unternehmen, Inhalte rechtssicher und entsprechend ihrer Data Governance einzusetzen: sei es bei der internen Nutzung oder bei der Weitergabe an externe Dienstleister.

Enterprise Search bietet Unternehmen eine zentrale Infrastruktur für moderne Informationsbereitstellung. Damit kann sie auch einen entscheidenden Beitrag zur Identifizierung, Einordnung und dem Schutz sensibler Informationen leisten.

Über den Autor: Franz Kögl ist Vorstand bei IntraFind in München, einem Spezialisten für Enterprise Search und KI.

(ID:50259526)