Trainingsdaten in der Cloud Datenschutzkonforme KI/ML-Modellierung

Von Filipe Pereira Martins und CTO und CISO Anna Kobylinska 10 min Lesedauer

Anbieter zum Thema

Datenschutzkonforme KI/ML-Modellierung in der Cloud muss die eine oder andere Hürde überwinden. Das Vorhaben erfordert sorgfältige Planung und durchdachte Umsetzung. Einige spezialisierte Lösungen können den Einstieg wesentlich erleichtern.

Für KI-Systeme, die in hohem Maße personenbezogene Daten verarbeiten oder ein erhöhtes Risiko darstellen, ist eine Datenschutz-Folgenabschätzung verpflichtend.(Bild:  Alexander Limbach - stock.adobe.com)
Für KI-Systeme, die in hohem Maße personenbezogene Daten verarbeiten oder ein erhöhtes Risiko darstellen, ist eine Datenschutz-Folgenabschätzung verpflichtend.
(Bild: Alexander Limbach - stock.adobe.com)

Die Public Cloud bietet Unternehmen eine beispiellose Flexibilität und Skalierbarkeit für die Entwicklung und Feinabstimmung von Modellen für künstliche Intelligenz (KI) und Machine Learning (ML); damit sind zwei wichtige Voraussetzungen für den Erfolg erfüllt. Allerdings stellt die Gewährleistung von Datenschutzkonformität bei der Nutzung öffentlicher Cloud-Infrastrukturen für viele Unternehmen eine erhebliche Einstiegshürde dar. Es herrscht eine große Unsicherheit darüber, wie der datenschutzkonforme Umgang mit KI/ML in der Cloud zu erfolgen hat. Manche Projekte kommen deswegen erst gar nicht aus den Startlöchern. Die betroffenen Unternehmen „versinken“ in Daten von unschätzbarem Wert, ohne daraus Erkenntnisse zu gewinnen.

Die Nutzung personenbezogener Daten mit KI/ML unterliegt strengen regulatorischen Beschränkungen. Unter welchen Bedingungen ist jetzt was genau erlaubt?

Die Quadratur des Kreises

Die Erfassung und Auswertung personenbezogener Daten unterliegen der EU-DSGVO und der Datenschutzrichtlinie (Privacy Directive). Zusätzliche Pflichten entstehen für Unternehmen gemäß der EU-KI-Verordnung (kurz: EU AI Act), die am 1. August 2024 in Kraft getreten ist. Dieses Gesetz regelt die Verwendung künstlicher Intelligenz (KI) innerhalb der Europäischen Union in allen Mitgliedsstaaten und für alle KI-Modelle.

Die Grundsätze der Datenminimierung („Privacy by Design and by Default“), der Rechtmäßigkeit der Verarbeitung (Einwilligung, Vertragserfüllung oder berechtigtes Interesse) sowie der Transparenz und Rechenschaftspflicht vertragen sich nicht gut mit KI und doch sind sie im KI-Zeitalter wichtiger als je zuvor. Die Unternehmen müssen die Quadratur des Kreises meistern.

Die meisten KI/ML-Modelle benötigen große und vielfältige Datenbestände mit einer hohen Anzahl von Datenpunkten, um Muster und Zusammenhänge zu erkennen und Vorhersagen mit der nötigen Präzision treffen zu können. Es gibt zwar Techniken wie Transfer Learning und Data Augmentation, doch sie stoßen in der Praxis an ihre Grenzen. Erschwerend kommt hinzu, dass die datenschutzkonforme Nutzung personenbezogener Daten in dem erforderlichen Umfang Unternehmen vor erhebliche technische Herausforderungen stellt.

Der EU AI Act fordert, dass „hochrisikoreiche“ KI-Systeme verständlich, erklärbar und überprüfbar sind. Dies stellt eine direkte Verbindung zur DSGVO her, die von Unternehmen verlangt, dass sie ihren Nutzern Informationen darüber erteilen, wie ihre Daten verarbeitet werden. Gleichzeitig muss die Gestaltung von KI- und ML-Systemen von Beginn an darauf abzielen, dem Grundsatz „Privacy by Design and by Default“ der DSGVO Folge zu leisten. Personenbezogene Daten dürfen nur im notwendigen Umfang verarbeitet werden – das betrifft auch das Training von KI/ML-Systemen.

Sicherheit ist ein kritisches Element, das jedes Unternehmen bei der Entwicklung einer Strategie für den Einsatz generativer KI berücksichtigen muss.

Dr. Jordan Brandt, CEO von Inpher

Die Transparenz von KI-Modellen stellt für Cloud-Nutzer eine nicht zu unterschätzende Herausforderung dar. „Transparenz beinhaltet sowohl die Bereitstellung von Informationen über das KI-System selbst als auch über dessen Ökosystem, wie z.B. die Lieferkette des KI-Systems oder Details über den Anbieter“, erläutert das Bundesamt für Sicherheit in der Informationstechnik (BSI) in dem Whitepaper „Transparenz von KI-Systemen“.

Nicht alle KI-Modelle sind von Natur aus erklärbar. Viele komplexe Modelle, wie tiefe neuronale Netze, funktionieren nach dem Blackbox-Prinzip, weil ihre inneren Entscheidungsprozesse schwer nachvollziehbar sind und sich zudem im Laufe der Nutzung verändern.

Für KI-Systeme, die in hohem Maße personenbezogene Daten verarbeiten oder ein erhöhtes Risiko darstellen, ist eine Datenschutz-Folgenabschätzung (Data Protection Impact Assessment, DPIA) verpflichtend. Zusätzlich verlangt der EU AI Act, dass bei Hochrisiko-KI-Systemen eine strenge Überwachung und regelmäßige Evaluierung stattfindet, um potenzielle Risiken frühzeitig zu identifizieren und zu mindern. Artikel 22 der DSGVO gibt den Betroffenen zudem das Recht, nicht einer ausschließlich automatisierten Entscheidung unterworfen zu werden, die rechtliche oder ähnlich signifikante Auswirkungen hat. Der EU AI ergänzt die DSGVO durch spezifische Anforderungen an KI-Systeme, insbesondere wenn diese als „hochrisikoreich“ eingestuft werden.

Die Übertragung personenbezogener Daten in Drittländer ist in der EU-DSVGO wie auch im EU AI Act ebenfalls ein heikles Thema. Unternehmen müssen sicherstellen, dass die Datenverarbeitung in Nicht-EU-Ländern nur unter Verwendung geeigneter Schutzmechanismen wie Standardvertragsklauseln oder Binding Corporate Rules (BCR) stattfindet. Für die Unternehmen läuft es auf die Anforderung zur Verwendung von Diensten lediglich jener Cloud-Anbieter hinaus, die die Konformität mit der DSGVO und dem EU AI Act garantieren. Unternehmen müssen also den Umgang mit ihren Daten und KI-Systemen wohlüberlegt gestalten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Datenschutz für die Cloud-Ära

Europäische Datenschutzinitiativen wie die EU-DSGVO, die Privacy-Richtlinie und der AI Act strahlen ihre Wirkung weltweit aus. Softwareanbieter weltweit haben ihre Lösungen danach ausgerichtet und streben die Konformität ihrer Innovationen mit europäischer Gesetzgebung an, um den europäischen Wirtschaftsraum adressieren zu können.

Um die regulatorischen Anforderungen des europäischen Wirtschaftsraums zu adressieren, setzen Anbieter von Diensten zur KI/ML-Modellierung in der Cloud auf eine Reihe von Technologien, mit denen sie die Quadratur des Kreises anstreben und bisweilen recht erfolgreich erreichen, und zwar:

  • Datenanonymisierung und Pseudonymisierung: Dieser Ansatz gewährleistet den Schutz personenbezogener Daten, ohne die geschäftliche Wertschöpfung zu mindern. Dies ist besonders relevant für Branchen wie das Gesundheitswesen, Finanzdienstleistungen und den Einzelhandel, die mit großen Mengen personenbezogener Daten arbeiten.
  • Vollständig homomorphe Verschlüsselung: Diese Form der Verschlüsselung ermöglicht Berechnungen an verschlüsselten Daten und somit die Datenübergabe an Partnerorganisationen ohne die Notwendigkeit, die Daten zwecks Verarbeitung im Klartext zugänglich zu machen; homomorphe Verschlüsselung ist besonders nützlich für datenschutzfreundliche Anwendungen im Cloud Computing.
  • Secure Multi-Party Computation (MPC): Diese kryptografische Methode erlaubt es mehreren Parteien, gemeinsam Berechnungen durchzuführen, ohne dass eine Partei die Daten der anderen einsehen kann.
  • Trusted Execution Environments (TEE): Diese isolierten Umgebungen schützen die Daten während der Verarbeitung vor unbefugtem Zugriff und Manipulation; AWS taufte diese Funktionalität auf den Namen AWS Nitro Enclaves; Microsoft Azure, Oracle Cloud Infrastructure und Google Cloud nutzen den generischen Begriff Confidential Computing.

Unternehmen wie Informatica, Inpher, Duality Technologies und nicht zuletzt die einheimische Bleenco aus München haben es vorgemacht.

Datenanonymisierung mit Informatica

Die Data Privacy Plattform des kalifornischen Anbieters Informatica (ehem. als Privitar bekannt) macht sich Methoden wie Datenmaskierung, Tokenisierung und Verschlüsselung zu Nutze, um Unternehmen bei der datenschutzkonformen KI/ML-Modellierung zu unterstützen. Diese Technologien sind darauf ausgerichtet, sensible Daten in Übereinstimmung mit den globalen Datenschutzbestimmungen zu verarbeiten und gleichzeitig ihre Nutzbarkeit für analytische und operative Zwecke zu erhalten. Informatica positioniert sich als führender Anbieter für intelligente Datenlösungen mit Schwerpunkt auf Künstliche Intelligenz (KI) und Datenschutzkonformität. Das Unternehmen operiert in Deutschland von Stuttgart aus.

Ein zentraler Bestandteil des Informatica-Portfolios ist Claire AI, eine leistungsstarke KI-Engine, die als „AI Copilot“ fungiert und in die Intelligent Data Management Cloud integriert ist. Claire AI nutzt fortschrittliche Machine-Learning-Modelle, um Automatisierung und intelligente Entscheidungen in Echtzeit zu ermöglichen. Unternehmen können so effizient Daten sammeln, analysieren und schützen, ohne die Anforderungen von Datenschutzgesetzen wie der DSGVO oder dem EU AI Act zu verletzen.

Claire AI unterstützt Unternehmen dabei, KI-basierte Entscheidungsprozesse zu beschleunigen, Risiken zu minimieren und neue Geschäftsmöglichkeiten zu erschließen. Informatica setzt zudem auf die kontinuierliche Weiterentwicklung seiner Technologien, um den Herausforderungen einer zunehmend datengetriebenen Welt gerecht zu werden. Das Unternehmen verfolgt einen ganzheitlichen Ansatz, der Datenschutz und Innovation in Einklang bringt, und schafft so die Basis für eine zukunftssichere Cloud-gestützte Datenstrategie.

Durch die Kombination aus künstlicher Intelligenz und datenschutzkonformen Lösungen schafft Informatica einen klaren Mehrwert für seine Kunden. Unternehmen können nicht nur ihre Effizienz steigern, sondern auch neue Wege zur Nutzung ihrer Daten eröffnen – stets im Einklang mit den geltenden regulatorischen Anforderungen. So hilft Informatica dabei, Daten als zentralen Treiber für Innovation und Wachstum zu nutzen.

Inpher: Confidential Computing auf NVIDIAs Cloud-GPUs

SecurAI von Inpher aus dem U.S.-Bundesstaat New York ermöglicht es Unternehmen, große Sprachmodelle in ihre Geschäftsprozesse zu integrieren, ohne dabei die Privatsphäre der Betroffenen zu gefährden. Inphers Lösungen, einschließlich der Nutzung von Secure Multi-Party Computation (SMPC), entsprechen den Anforderungen der DSGVO und des EU AI Acts. Inpher hat sich der datenschutzkonformen KI/ML-Modellierung in der Cloud verschrieben. Die Stärken des Anbieters liegen im Bereich Confidential Computing. Inpher nutzt sowohl Secure Multi-Party Computation (MPC) als auch Trusted Execution Environments (TEE), um den Schutz von Daten in der Cloud zu gewährleisten.

Ein zentrales Produkt ist SecurAI, das Unternehmen ermöglicht, große Sprachmodelle (LLMs) und generative KI (GenAI) sicher und autonom einzusetzen. SecurAI adressiert Datenschutz- und Sicherheitsbedenken, indem es sicherstellt, dass Eingaben wie vertrauliche Geschäfts- oder persönliche Daten innerhalb einer geschützten Umgebung verarbeitet werden, die von der zugrunde liegenden Infrastruktur isoliert ist. Diese Trusted Execution Environment (TEE) schützt sensible Informationen vor unbefugtem Zugriff, selbst vor dem Hosting-Anbieter von SecurAI.

Die neueste Version von SecurAI nutzt die Nvidia H100 Tensor Core GPU mit Unterstützung für Confidential Computing. „SecurAI von Inpher ermöglicht es Unternehmen in Verbindung mit der vertraulichen Computertechnologie von Nvidia, vertrauliche GPUs für eine verbesserte Datennutzung und Geschäftsproduktivität zu verwenden“, so Daniel Rohrer, Vice President of Product Security bei Nvidia.

Dr. Jordan Brandt, Geschäftsführer und Mitgründer von Inpher.(Bild:  Inpher)
Dr. Jordan Brandt, Geschäftsführer und Mitgründer von Inpher.
(Bild: Inpher)

Ein bedeutendes Feature von SecurAI ist die Integration von Retrieval-Augmented Generation (RAG). Dies erlaubt es Unternehmen, Modelldaten mit ihren internen Geschäftsanwendungen wie Slack, Zendesk, Salesforce oder Snowflake zu kombinieren, ohne sensible Informationen an den Modellanbieter weiterzugeben. SecurAI ermöglicht es zudem, eigene Dateien sicher zu nutzen, was es besonders für Unternehmen attraktiv macht, die Wert auf Datenschutz und Datensicherheit in der Cloud legen. „Unser Engagement für Datenschutz und den verantwortungsvollen Einsatz von KI ist von zentraler Bedeutung für unser Team; durch die enge Zusammenarbeit mit NVIDIA liefern wir die robusteste, unternehmensgerechte generative KI-Lösung,” freut sich Dr. Jordan Brandt, Geschäftsführer und Mitgründer von Inpher.

Inpher bietet seine Lösung auf mehreren Cloud-Diensten an. Inphers XOR Privacy-Preserving Machine Learning Platform ist unter anderem im Oracle Cloud Marketplace, auf AWS und Azure verfügbar. Diese Plattform ermöglicht es Organisationen, KI-Modelle mit sensiblen Daten sicher zu trainieren.

KI-Computing in Multi-Party-Szenarien mit Duality Technologies

Duality Technologies bietet führende Lösungen zur sicheren Verarbeitung sensibler Daten in Multi-Party-Szenarien. Fortschrittliche Technologien zur datenkonformen Zusammenarbeit und Analyse wie die homomorphe Verschlüsselung erlauben Unternehmen eine datenzentrierte Zusammenarbeit und datenschutzkonformes Cloud Computing in Multi-Party-Szenarien. Dank der homomorphen Verschlüsselung können mehrere Parteien verschlüsselte Daten miteinander austauschen und in einer sicheren Umgebung gemeinsam verarbeiten, ohne sensible Informationen offenzulegen. So können Unternehmen aus ihren Daten handlungsfähige Erkenntnisse gewinnen und innovative Anwendungen entwickeln, ohne die Privatsphäre der Betroffenen zu gefährden.

Datenschutzkonformes Cloud Computing in Multi-Party-Szenarien mit Duality.(Bild:  Duality Technologies)
Datenschutzkonformes Cloud Computing in Multi-Party-Szenarien mit Duality.
(Bild: Duality Technologies)

Die Produkte des Anbieters aus dem US-Bundesstaat New Jersey gewährleisten datengesteuerte Kooperationen unter Einhaltung der DSGVO und des EU-KI-Gesetzes. Die Plattform von Duality fördert den sicheren und effizienten Austausch von Informationen in stark regulierten Branchen wie dem Finanz- und Gesundheitswesen und im öffentlichen Sektor. Zu den Kunden von Duality zählen Unternehmen wie AWS, Google, Deloitte, IBM und Mastercard. Zu den Partnern zählen alle drei führenden Hyperscaler AWS, Microsoft Azure und Google Cloud. Teams aus verschiedenen Unternehmen können KI-Modelle mit den besten Praktiken in Bezug auf Datensicherheit und Datenschutz in der Cloud entwickeln und trainieren. Sie können dabei sensible Informationen ihrer Partner verwenden, ohne Einsicht in diese Datenbestände zu erhalten. Die so trainierten KI-Modelle können sie dann bereitstellen und monetarisieren, ohne den Schutz der verwendeten Daten aufzuheben.

Ausführung eines maschinell lernenden Modells im Modus Inferenz in Duality mit der Erlaubnis des Datentreuhänders.(Bild:  Duality Technologies)
Ausführung eines maschinell lernenden Modells im Modus Inferenz in Duality mit der Erlaubnis des Datentreuhänders.
(Bild: Duality Technologies)

Anbieter der KI-Modelle können zudem anhand sensibler Informationen ihrer potenziellen Kunden nachweisen, dass die Modelle funktionieren, ohne einen Einblick in ihre Daten zu erhalten, um so einen Mehrwert aufzuzeigen und einen Wettbewerbsvorteil zu schaffen. Dies ist das Versprechen der datenschutzkonformen KI-Kollaboration von Duality Technologies.

Bleenco: KIs mit Sensordaten in der Cloud trainieren

Das Start-up Bleenco aus der bayerischen Landeshauptstadt München hat sich auf die Entwicklung von datenschutzkonformen Lösungen für KI- und ML-Modellierung in der Cloud spezialisiert. Mit den Lösungen von Bleenco können Unternehmen die Einhaltung von Datenschutzbestimmungen gewährleisten. Bleenco entwickelt sensorbasierte Lösungen mit KI-Fähigkeiten, um kritische Infrastrukturen intelligenter zu gestalten. Die Plattform zielt darauf ab, analoge Prozesse zu automatisieren und veraltete Produkte mit Hilfe von künstlicher Intelligenz zu modernisieren.

Das Unternehmen integriert fortschrittliche Datenschutzmaßnahmen direkt in den Entwicklungsprozess von KI- und ML-Modellen (Stichwort „Privacy-by-Design“). Es macht sich unter anderem einen Ansatz namens „Federated Learning“ zu Nutze, um KI/ML-Modelle zu trainieren, ohne dass die Daten das Unternehmen verlassen. Darüber hinaus vertraut Bleenco auf Methoden des „Differential Privacy“, um sicherzustellen, dass individuelle Datenpunkte in den Datensätzen nicht identifiziert werden können, selbst wenn die Daten nicht nur inhouse analysiert, sondern geteilt werden sollten.

Darüber hinaus bietet Bleenco auch Dienstleistungen an, die Unternehmen dabei unterstützen, KI/ML-Modelle datenschutzkonform in der Cloud zu entwickeln und zu betreiben:

  • Datenschutzkonforme Datenverarbeitung: Gewährleistung, dass alle Datenverarbeitungsprozesse den gesetzlichen Anforderungen entsprechen.
  • Sichere Cloud-Implementierung: Unterstützung bei der sicheren Implementierung von KI/ML-Modellen in Cloud-Umgebungen.
  • Transparenz und Nachvollziehbarkeit: Bereitstellung von Tools und Methoden, um die Transparenz und Nachvollziehbarkeit von KI-Modellen zu gewährleisten.

Das Unternehmen kann bereits auf eine Menge prominenter Vorzeigekunden vorweisen, darunter BASF, Constellium, Mercedes-Benz, Siemens, Hafen von Antwerpen, Brügge oder den Pharmakonzern Abbvie aus Chicago im US-Bundesstaat Illinois. Bleenco arbeitet eng mit seinen Kunden zusammen, um maßgeschneiderte Lösungen zu entwickeln, die sowohl technologisch fortschrittlich als auch datenschutzkonform sind.

Fazit der Autoren


Die datenschutzkonforme Implementierung der KI/ML-Modellierung stellt für Anwenderorganisationen eine große Herausforderung dar. Unternehmen müssen strenge Transparenz- und Sicherheitsanforderungen erfüllen. Der EU AI Act stellt insbesondere für Hochrisiko-KIs zusätzliche Anforderungen, die über die bisherigen DSGVO-Vorgaben hinausgehen. Die Einhaltung dieser Vorgaben erfordert einen strukturierten, risikobasierten Ansatz, um rechtliche Sicherheit zu gewährleisten.

Unternehmen müssen sicherstellen, dass ihre sensiblen Daten durch fortschrittliche Sicherheitsmaßnahmen geschützt sind und in ihrer Nutzung allen gesetzlichen Datenschutzvorgaben Folge leisten. Dies erfordert nicht zuletzt eine sorgfältige Auswahl und kontinuierliche Überwachung der Cloud-Dienste.

* Das Autorenduo Anna Kobylinska und Filipe Pereia Martins arbeitet für McKinley Denali, Inc., USA.

(ID:50267063)