Unterschätzte Gefahren für KI-Systeme Wie Data Poisoning die Sicherheit Künstlicher Intelligenz bedroht

Von Rolf Schulz 7 min Lesedauer

KI-Sicherheit ist ein komplexes Thema, das häufig unterschätzt wird. Während manche glauben, dass herkömmliche Cybersicherheitsmaßnahmen ausreichen, zeigt sich bei näherer Betrachtung, dass spezifischere Bedrohungen wie Data Poisoning erhebliche Risiken bergen. Der folgende Artikel beleuchtet, wie Data Poisoning KI-Modelle manipulieren kann und welche Maßnahmen erforderlich sind, um diesen Bedrohungen wirksam zu begegnen.

(Bild:  Dall-E / KI-generiert)
(Bild: Dall-E / KI-generiert)

Wenn das Thema KI-Sicherheit auf den Tisch kommt, gibt es oft sehr geteilte Reaktionen. Einerseits ein etwas schuldbewusstes: „Jaa, da müsste man mal genauer hinschauen“, andererseits ein klares: „Das haben wir im Griff. Unsere Maßnahmen reichen aus“. Wobei bei Nachfrage die Maßnahmen sich als klassische Cyber-Sicherheitsmaßnahmen entpuppen und das Thema Künstliche Intelligenz (KI) gar nicht oder nur am Rande betrachtet wird.

KI-Sicherheit ist ein sehr komplexes Thema. Genauer gesagt ein hybrides Thema, eine Mischung aus Datensicherheit, traditioneller Cybersicherheit und KI-spezifischen Risiken und Schutzmaßnahmen mit einem starken mathematischen Hintergrund. Im folgenden Artikel wird das am Beispiel von Data Poisoning erörtert.

Data Poisoning ist keine einfache Datenmanipulation. Eine Datenmanipulation verändert Daten, die dann von einem Programm gemäß festgelegter Logik verarbeitet werden. Resultat? Das Programm liefert falsche (andere) Ergebnisse, wird aber selbst nicht beeinträchtigt.

Ein KI-Modell basiert jedoch nicht auf festen Anweisungen, sondern auf einem Algorithmus, der aus Daten lernt und Muster erkennt, um selbstständig Entscheidungen oder Vorhersagen zu treffen. Wird die Informationsbasis des Algorithmus verändert, können auch „richtige“ Daten zu falschen Ergebnissen führen.

Data Poisoning zielt auf die Integrität

Data Poisoning zielt also darauf ab, die Integrität eines Machine-Learning-Modells zu untergraben. Durch gezielte Verfälschung der (Trainings)daten wird das Modell zu systematischen Fehlern verleitet.

Phasen des Data/Model Poisonings(Bild:  Rolf Schulz)
Phasen des Data/Model Poisonings
(Bild: Rolf Schulz)

Data Poisoning lässt sich am einfachsten im Bereich des Supervised Learnings (überwachten Lernens) beschreiben. Dabei werden Modelle mit gelabelten (gekennzeichneten) Datensätzen trainiert, z. B. Bilder von Hunden mit dem Label „Hund“ und Katzen mit dem Label „Katze“. Ziel ist es, dass das Modell selbstständig zwischen Katzen und Hunden unterscheidet.

Lernt das Modell jedoch aufgrund falscher Labels, dass es sich bei dem Bild einer Katze um einen Hund handelt, führt diese Fehlinformation zu falschen Entscheidungen (Label Flipping). Zunächst sinkt das Vertrauen in die KI, aber bei einer ausreichenden Menge falscher Daten wird das Modell Katzen als Hunde erkennen und umgekehrt. In komplexen Systemen kann das erheblichen Schaden anrichten.

Data Poisoning ist nicht auf Trainingsdaten beschränkt, sondern kann auch auf bereits verwendete Modelle angewendet werden. Ein Beispiel: Eine E-Commerce-Plattform verwendet einen Chatbot für Produktempfehlungen, die auf Nutzerdaten wie Klicks und Bewertungen basieren. Ein Angreifer erstellt Bot-Accounts, die gefälschte Interaktionsdaten wie gezielte Klicks, Warenkorbaktionen ohne Kauf und manipulierte Bewertungen einspeisen. Das Modell lernt diese falschen Muster und empfiehlt die manipulierten Produkte häufiger, was die Qualität der Empfehlungen und das Vertrauen in die Plattform beeinträchtigt.

Noise

Das Hinzufügen von „Noise“ kann die Leistung eines Modells beeinträchtigen. Es kommt zu einer Verschlechterung der Modellleistung oder zu einer falschen Klassifizierung. Rauschen ist ein Beispiel für eine zufällige oder beabsichtigte Abweichung in einem Datensatz, z. B. in einer Zeitreihe. Oder ein verrauschtes Bild, das sich mit dem eigentlichen Datensatz vermischt. Man spricht hier von weißem Rauschen, weil es bei allen Frequenzen die gleiche Intensität aufweist, ähnlich wie weißes Licht, das alle sichtbaren Wellenlängen enthält. Je nach Intensität des Rauschens ist der Effekt für den Anwender nicht wahrnehmbar. Für das Modell ist es jedoch ein völlig anderes Bild, da die Pixelwerte nicht mehr mit dem Original übereinstimmen. Das kann z. B. durch das Hinzufügen von Gaussian Noise geschehen.

Eine interessante Angriffsvariante ist die Nutzung von FGSM (Fast Gradient Sign Method), die als Inference-based Attack (also ein Angriff auf ein bereits trainiertes Modell) betrachtet wird. Obwohl FGSM traditionell als advers (feindliche) Attacke klassifiziert wird, kann sie als eine Form von Datenvergiftung angesehen werden.

Dabei fungiert die Störung als manipulative Eingabe, die das Modell in die Irre führt. Diese Eingabe korrumpiert den normalen Inferenzprozess des Modells (also die Phase, wo das Model Entscheidungen auf Basis von ungesehenen Daten trifft) und führt zu Fehlklassifikationen oder spezifischem unerwünschtem Verhalten.

FGSM modifiziert die Eingabedaten während der Inferenzphase, um das Modell zu Fehlklassifikationen zu veranlassen, ohne die Trainingsdaten oder Modellparameter zu beeinflussen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Backdoor-Angriffe

Ein anderes Beispiel sind Backdoors. Bei diesen Angriffen werden versteckte Auslöser (Trigger) in maschinelle Lernmodelle eingebaut, typischerweise während des Trainings. Diese Trigger bleiben inaktiv und unbemerkt, bis sie aufgerufen werden. Dann reagiert das Modell mit einer bestimmten Aktion. Beispielsweise kann eine Person, die eine rote Baseballmütze trägt, von der Bilderkennung automatisch als autorisiert angesehen werden. Oder es kann der Download eines Trojaners gestartet werden, wenn sich ein bestimmter Teilnehmer bei einer internen Online-Sitzung anmeldet.

Backdoors können auch nach der Bereitstellung durch Updates oder erneutes Training eingeschleust werden, wobei der Auslösemechanismus extern sein kann (z. B. in der Cloud). Dadurch entziehen sie sich herkömmlichen Erkennungsmethoden und bleiben während des gesamten Lebenszyklus des Modells aktiv. Vortrainierte Modelle können daher schwer erkennbare Hintertüren enthalten, was ein erhöhtes Risiko für solche Modelle darstellt.

Model vs. Data Poisoning

Data Poisoning und Model Poisoning können sowohl in der Trainings- als auch in der Post-Deployment-Phase auftreten, unterscheiden sich jedoch in ihren Methoden und Zielen. Bei Data Poisoning werden manipulative Daten primär in den Trainingsdatensatz eingeschleust, um das Modell zu manipulieren. In der Post-Deployment-Phase zielen Angriffe auf Systeme ab, die kontinuierlich neu trainiert oder feinabgestimmt werden, wie beispielsweise Empfehlungssysteme. Model Poisoning hingegen manipuliert in der Trainingsphase Modell-Updates oder Parameter.

Data und Model Poisoning im Vergleich(Bild:  Rolf Schulz)
Data und Model Poisoning im Vergleich
(Bild: Rolf Schulz)

Gegenmaßnahmen

Grundsätzlich gilt: Data Poisoning ist kein trivialer Angriff. Wenn ein Modell ernsthaft „vergiftet“ wurde, ist es nicht immer möglich, die schädlichen Daten zu entfernen. Dann muss das Modell neu trainiert werden. Aus diesem Grund sind Schutzmaßnahmen besonders wichtig – und eine Grundvoraussetzung dafür ist das Vorhandensein von Cyber-Sicherheitsmaßnahmen, wie sie heute üblich sind. Das reicht aber nicht aus.

Sichern der Datenintegrität über alle Phasen des Model Lifecycles. So lapidar das klingt, ist es die Lösung, um KI-Modelle am besten zu schützen. Ein wichtiges Mittel ist Data Sanitization. Validierung – Filterung und Bereinigung von Daten/Datenquellen. Eine Technik, die aktuell besonders in KI-Safety-Diskussionen favorisiert wird. Zur Erinnerung: KI-Safety konzentriert sich darauf, sicherzustellen, dass KI-Systeme wie beabsichtigt funktionieren und keinen Schaden oder Irritationen verursachen.

Anomalie Erkennung ist ein weiteres Verfahren. Hier werden ungewöhnliche oder abnormale Muster in Daten identifiziert, die von der Norm abweichen. Nicht trivial, sehr mathematisch, aber auch sehr effizient. Und leider auch sehr arbeitsintensiv.

Robustes Lernen: Dabei handelt es sich um eine Reihe von Techniken und Methoden des maschinellen Lernens, die darauf abzielen, Modelle gegenüber Rauschen, unerwünschten Eingaben und adversen Daten widerstandsfähig zu machen und eine konstante Leistung auch unter ungünstigen Bedingungen zu gewährleisten. Verwendete Techniken sind unter anderem Regelung (verhindert Over-Fitting), robuste Loss-Funktionen, um den Einfluss von Ausreißern zu vermindern oder adverses Training.

Der Schutz von Modellen gegen Poisoning-Angriffe kann sich komplexer gestalten – Abwehrmaßnahmen sind sichere Aggregation, differential Privacy und robuste Mechanismen zur Modellaktualisierung.

Und immer wieder Monitoring – in allen Phasen der Modellentwicklung und des Betriebs. Überwachung, Protokollierung und Korrelation von Daten. Damit lassen sich Angriffe zwar nicht verhindern, aber rechtzeitig erkennen.

Verzweifelte Zeiten ...

Ein Team der University of Chicago stellte 2023 mit „Nightshade“ ein Tool vor, das den Trainingsprozess von KI-Modellen wie Dalle-E oder Stable Diffusion korrumpiert. Ziel ist es, Künstler und Verleger (Content Creators) davor zu schützen, dass ihre Werke ohne ihre Zustimmung durch Data Scraping für das Training von generativen KI-Bildsynthesemodellen verwendet werden. Quasi Copyright-Schutz durch Data Poisoning.

Nightshade nimmt ein Bild des gewünschten Konzepts (OK, wir bleiben beim Hund) und verändert es subtil, sodass es äußerlich unverändert bleibt. Im sogenannten latenten Raum – der internen, mathematischen Repräsentation des Modells – wird das Bild jedoch von einem anderen Konzept (z. B. „Katze") beeinflusst. Der latente Raum ist ein abstrakter Raum, in dem das Modell Merkmale und Beziehungen zwischen Daten kodiert. Obwohl Bild und Text für Menschen oder einfache Prüfungen konsistent erscheinen, trägt das Bild im latenten Raum Eigenschaften beider Konzepte. Dies führt dazu, dass das Modell bei der Nutzung solcher Daten falsche Zusammenhänge lernt.

Zitat MIT Technology Review: „Als sie Stable Diffusion mit nur 50 vergifteten Bildern von Hunden fütterten und es dann aufforderten, selbst Bilder von Hunden zu erstellen, begann die Ausgabe seltsam auszusehen – Kreaturen mit zu vielen Gliedmaßen und Cartoon-artigen Gesichtern. Mit 300 vergifteten Proben kann ein Angreifer Stable Diffusion so manipulieren, dass es Bilder von Hunden erzeugt, die wie Katzen aussehen.“

Die Idee hinter dieser Aktion ist der Schutz von geistigem Eigentum – wobei ich persönlich die Methode für fraglich halte – zumal sie erheblichen Schaden an den betroffenen Modellen anrichten kann. Nightshade ist als Open-Source auf GitHub verfügbar.

Fazit

Die Sicherheit Künstlicher Intelligenz ist von entscheidender Bedeutung, um die Integrität und das Vertrauen in KI-Systeme zu gewährleisten. Data Poisoning und andere manipulative Angriffe stellen ernsthafte Bedrohungen dar, die mit klassischen Cybersicherheitsmaßnahmen allein nicht ausreichend adressiert werden können.

Spezialisierte Techniken wie Data Sanitization, Anomalie-Erkennung und robustes Lernen sind erforderlich, um KI-Modelle wirksam zu schützen. Eine enge Zusammenarbeit zwischen Entwicklern, Forschern und Sicherheitsexperten ist unerlässlich, um kontinuierlich gegen neue Bedrohungen gewappnet zu sein und die Sicherheit von KI-Systemen nachhaltig zu stärken.

(ID:50314793)