Der Schutz sensibler Unternehmensdaten ist ein Dauerbrenner. Durch den Hype um generative KI sind sie derzeit besonders gefährdet. Bei der Identifizierung und beim Schutz kritischer Informationen spielen Suchtechnologien eine Schlüsselrolle – auch in der Welt der GenAI.
Schützenswerte Informationen im Unternehmen zu finden ist gar nicht so einfach.
(Bild: Somchai - stock.adobe.com)
Dass Unternehmen sensible Daten schützen sollten, liegt auf der Hand. Wenn sie geistiges Eigentum oder persönliche Informationen verlieren, drohen ihnen erhebliche Konsequenzen: empfindliche Geldstrafen, ein irreparable Reputationsverlust oder sogar existenzbedrohende Umsatzeinbußen.
Um das zu verhindern, müssen Unternehmen aber erst einmal wissen, welche sensiblen Daten sie überhaupt haben und wo sie sich befinden. Das ist alles andere als trivial, denn solche Informationen liegen nicht nur transparent in strukturierter Form in den Datenbanken von ERP- oder CRM-Systemen vor. Sie befinden sich auch in Files mit unstrukturierten Daten wie E-Mails, Textdateien oder Tabellen. Außerdem sind sie über heterogene IT-Systeme und Speicherorte verteilt: von internen Filesystemen über Unternehmensportale oder Wikis bis hin zu Cloud-Plattformen.
Sensible Inhalte automatisiert erkennen und labeln
Ein schlagkräftiges Tool zur Lösung dieses Problems ist Enterprise Search. So eine Software ist per Definition für die unternehmensweite Suche nach Informationen gemacht und bringt dadurch Funktionen mit, die sich auch hervorragend für Data Discovery und Data Classification eignen. Enterprise Search kann die unterschiedlichsten Datenquellen anbinden, seien es strukturierte oder unstrukturierte Daten, Quellen im eigenen Unternehmen oder in der Cloud. Mit Technologien wie fortgeschrittener Textanalyse, Machine Learning und Deep Learning ist sie in der Lage, die Inhalte von Dokumenten thematisch zu erfassen.
Unternehmen haben dadurch die Möglichkeit, Dokumente automatisiert zu erkennen und zu klassifizieren, die internen Compliance-Regeln oder regulatorischen Vorgaben unterliegen. Die Enterprise Search speichert die Klassifikation in Form von Metadaten an den jeweiligen Dokumenten und ermöglicht es Unternehmen damit, Dateien ausfindig zu machen und zu kennzeichnen, die geistiges Eigentum wie Patente und Erfindungen enthalten, unter gesetzliche Vorgaben zur Geheimhaltung und Exportkontrolle fallen oder persönliche Informationen gemäß DSGVO aufweisen. Im Zusammenspiel mit Datensicherheitssystemen können sie anschließend technische Lösungen implementieren, die etwa das Hochladen solcher Dateien in die Cloud unterbinden oder den Zugang der Mitarbeiter einschränken – oder die Daten vor dem Hochladen pseudonymisieren.
RAG sorgt bei generativer KI für Datenschutz „by Design“
Durch den Hype um generative KI sind sensible Daten aktuell besonders bedroht. Viele Unternehmen möchten von den unbestreitbaren Vorzügen dieser Technologie profitieren und implementieren Chatbots, die organisationseigene Inhalte verarbeiten. Im Eifer des Gefechts übersehen sie dabei oft, dass auf diesem Weg auch schützenswerte Informationen an nicht autorisierte Mitarbeiter, Kunden oder Interessenten gelangen können.
Auch dieses Problem können Unternehmen mit der Hilfe von Enterprise Search lösen. Als Königsweg für den Einsatz von GenAI mit Unternehmensdaten gilt die so genannte Retrieval Augmented Generation, kurz RAG. Dabei handelt es sich um nichts anderes als generative KI, die in Suchtechnologien integriert ist. Bei Anfragen an einen Chatbot durchsuchen die Technologien einer Enterprise Search die organisationseigenen Daten nach relevanten Informationen und Passagen – und zwar nur die, auf die Mitarbeitende zugriffsberechtigt sind - und stellen sie der generativen KI zur Generierung der Antwort zur Verfügung. Diese Architektur liefert also nur rechtegeprüfte Textpassagen an das Sprachmodell, um damit mit nachvollziehbarem Quellenbezug Antworten oder Zusammenfassungen zu erstellen. RAG minimiert dadurch auch das Risiko der Generierung von Ungenauigkeiten oder gar Halluzinationen aus dem Sprachmodell. Damit sorgt sie automatisch für den Schutz sensibler Daten.
Zugriffsrechte werden bereits bei der Indexierung berücksichtigt
Der Grund dafür liegt in der Funktionsweise von Enterprise Search. Um Informationen auffindbar zu machen, indiziert diese Daten und Dokumente und reichert sie an, um einen linguistisch normalisierten Volltextindex aufzubauen. Zudem erzeugt sie numerische Darstellungen (Embeddings bzw. Vektoren) von Textabschnitten, die deren Inhalte repräsentieren. Dadurch ist die Software dann in der Lage, Dokumente oder Passagen zu identifizieren, die inhaltlich in einem engen Verhältnis zu einer Suchanfrage stehen. Eine geeignete Software bringt ein durchgängiges Rechte- und Rollenmanagement mit, kann dadurch bereits bei der Indexierung Zugriffsrechte berücksichtigen und diese bei der Suche und Ausgabe der Ergebnisse automatisch heranziehen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Übertragen auf die RAG-Architektur bedeutet das: Wenn ein Nutzer eine Anfrage an einen Chatbot stellt, filtern die Suchtechnologien von Anfang an nur Inhalte heraus und stellen sie der generativen KI für die Erzeugung der Antwort zur Verfügung, für die der Nutzer auch berechtigt ist. Der Schutz sensibler Informationen ist bei einer RAG-Architektur also quasi „by Design“ in das Gesamtsystem integriert.
Aber auch bei der Implementierung gezielter Sicherheitsmaßnahmen kann RAG den Unternehmen wertvolle Dienste leisten. So ermöglicht ihnen die Kombination aus Suchtechnologien und generativer KI spezielle Schutzworkflows für sensible Informationen. Generative KI lässt sich dabei mit entsprechenden Prompts so einstellen, dass sie Inhalte anonymisiert oder pseudonymisiert. Die Suchtechnologie ist in der Lage, beispielsweise personenbezogene Daten wie Namen, Adressen, Telefonnummern oder IP-Adressen zu identifizieren und die generative KI kann diese Daten dann durch Platzhalter oder synthetische Daten ersetzen. Das ermöglicht es Unternehmen, Inhalte rechtssicher und entsprechend ihrer Data Governance einzusetzen: sei es bei der internen Nutzung oder bei der Weitergabe an externe Dienstleister.
Enterprise Search bietet Unternehmen eine zentrale Infrastruktur für moderne Informationsbereitstellung. Damit kann sie auch einen entscheidenden Beitrag zur Identifizierung, Einordnung und dem Schutz sensibler Informationen leisten.
Über den Autor: Franz Kögl ist Vorstand bei IntraFind in München, einem Spezialisten für Enterprise Search und KI.