Kommentar von Dr. Sven Krasser, CrowdStrike Adversarial Machine Learning – Angriffsszenarien und Schutztechniken
Anbieter zum Thema
Machine Learning (ML) und künstliche Intelligenz (KI) sind seit einigen Jahren zu einem wichtigen Bestandteil von Cybersecurity-Lösungen geworden. Vor allem sogenannte Deep-Learning-Ansätze erzielten in den vergangenen Jahren enorme Fortschritte und erlauben den Einsatz von ML-Technik in vielen neuen Anwendungsgebieten. Trotzdem ist es wichtig, sich vor Augen zu führen, dass ML allein kein Allheilmittel für alle Herausforderungen der Sicherheitsbranche ist.

ML ist zwar eine zentrale Technik, jedoch ist es wichtig, dass Entscheidungsträger und Experten auch die Grenzen und Risiken von ML kennen. Dieses Wissen ist essentiell, um entscheiden zu können, welche ML-Lösungen robust und nach dem neuesten Stand der Forschung konzipiert worden sind und so den bestmöglichen Schutz bieten, ohne selbst das Angriffsrisiko aufgrund der genutzten ML-Technik zu erhöhen. Denn mit dem zunehmenden Einsatz von KI und ML in der Branche vergrößert sich zugleich auch die Angriffsfläche für Cyberangreifer.
Eine erhebliche Bedrohung für aktuelle KI-Systeme stellen die Fortschritte im Bereich Adversarial Machine Learning (AML) dar, eine noch recht junge Disziplin. AML fokussiert sich auf das Auffinden und Ausnutzen von Sicherheitslücken im Bereich Machine Learning mithilfe von verschiedenen Schädigungsmechanismen. Die Fähigkeit, gegnerische ML-spezifische Angriffe zu erkennen, ist für Verteidiger also von entscheidender Bedeutung, denn nur so können stetig bessere und robustere KI-Modelle entwickelt werden, die letztendlich zum wirkungsvollen Schutz beitragen.
Angriffsszenarien auf ML-Modelle
Machine-Learning-Lösungen nutzen Algorithmen sowie eine Reihe von statistischen Methoden, um vorhandene Datenbestände zu analysieren und Muster zu erkennen. Die zugrundeliegenden Konzepte erlauben neuartige Arten von Angriffen auf Datenverarbeitungssysteme. Nach dem Vorbild des MITRE ATT&CK-Frameworks enumeriert und klassifiziert das MITRE ATLAS-Framework solche Angriffsmethoden auf ML-Systeme.
Eine dieser Methoden zielt darauf ab, die Daten, die zum Trainieren von KI-Modellen verwendet werden, zu manipulieren. Damit KI-Modelle Muster erkennen, werden sie mittels einer Datenbasis entsprechend trainiert. Diese Datenbasis, die als Trainingsbasis dient, wird auch „Ground Truth“ oder Grundwahrheit genannt. Sie definiert, wie das KI-Modell auf bestimmte Eingaben reagieren soll.
Bei Data-Poisoning-Angriffen versuchen die Angreifer gezielt diese Grundwahrheit, also die Trainingsdaten, zu „vergiften“. Dafür speisen sie Daten ein, die dazu führen, dass der Algorithmus falsch trainiert wird. Das hat wiederum Einfluss auf die Aussagequalität des dahinterliegenden KI-Modells. Denn die Manipulation der Trainingsphase des KI-Modells führt dazu, dass Daten fehlerhaft klassifiziert werden. So können Angreifer zum Beispiel Dateien, die ursprünglich als Malware klassifiziert wurden, als legitime Dateien tarnen.
Solche Veränderungen können auf verschiedene Weise erzielt werden, z. B. durch Manipulation durch den Angreifer im Rahmen einer traditionellen Sicherheitsverletzung. Häufiger ist die Manipulation von öffentlichen Datenbeständen, die zum Trainieren von datenhungrigen KI-Algorithmen benötigt werden, von größerer Bedeutung. In Fällen, in denen KI von Benutzereingaben lernt, können arglistige Nutzer das KI-System korrumpieren. So geschehen z. B. mit dem Twitter-Bot Tay, dessen KI von seinen Konversationen mit anderen Twitter-Nutzern lernen sollte und damit durch gezielte Manipulation nach wenigen Stunden menschenverachtende Nachrichten auf der Social Media-Platform absetzte.
Evasion-Attacks nehmen auch Einfluss auf das maschinelle Lernsystem, beeinflussen jedoch nicht direkt den Trainingsprozess, sondern versuchen, das Vorhersagesystem des Modells zu täuschen. Die Angreifer nutzen dabei sogenannte Adversarial Examples, also spezielle Eingabedaten, die das Ziel haben, das ML-System zu verwirren, um eine fehlerhafte Klassifizierung zu erreichen. Ein typisches Beispiel für diese Art der Attacke ist die Änderung einiger Pixel in einem Bild vor dem Hochladen, sodass das Bilderkennungssystem das Ergebnis nicht oder anders klassifiziert. Solche Veränderungen sind häufig für den Menschen nicht sichtbar oder nicht direkt als Angriff erkennbar.
In einem Fall in der Security-Branche haben Sicherheitsforscher manuell eine Schadsoftwaredatei so verändert, dass die KI-basierte Erkennung eines Antivirus-Anbieters sie als legitim bewertet. Die Forscher haben dazu Zeichenketten von legitimer Software extrahiert und diese dann zu der Schadsoftware hinzugefügt. Das KI-Modell dieses Anbieters hat dann diesen legitimen Zeichenketten mehr Gewicht gegeben als den Schadroutinen in der Datei.
KI-Modelle, Wissen ist Macht
Entscheidend für den Erfolg einer Attacke ist auch das Vorwissen über das ML-Zielsystem. Je mehr Angreifer über das verwendete KI-Modell und seinen Aufbau wissen, desto einfacher ist es für sie, einen Angriff zu starten und eine entsprechende Methode auszuwählen. Im Falle der o. g. Schadsoftwareveränderung hatten die Angreifer Zugriff auf das Modell und die Software. Man spricht dann von einer White-Box-Attacke. Die Angreifer konnten die Algorithmen analysieren und so die richtigen Zeichenketten finden, die es erlaubten, das System zu täuschen.
Am anderen Ende des Spektrums sind Black-Box-Attacken, bei denen der Angreifer keine oder nur wenige Kenntnisse über das KI-Modell hat. Gibt das Modell eine statistische Sicherheit mit der Klassifizierung aus, z. B. die Wahrscheinlichkeit, dass eine Datei Schadsoftware ist, dann kann der Angreifer gradientenbasierte Methoden nutzen, um seinen Input so zu modifizieren, dass der ML-Algorithmus diesen als „False Negative“ klassifiziert und dementsprechend keinen Alarm auslöst. Dazu prüft er nach jeder Modifikation, wie sich die Wahrscheinlichkeit verändert. So tastet er sich dann automatisiert an das Ergebnis heran wie in einem „heiß und kalt“ Spiel.
Schutztechniken für Machine-Learning-Modelle
Um ML-System zu schützen, können Verteidiger Methoden benutzen, die Angriffe verhindern, erschweren oder erkennbar machen können. Um sich z. B. gegen den Zeichenkettenangriff zu schützen, können monotone Klassifizierungsmodelle eingesetzt werden. Solche monotonen KI-Modelle fokussieren sich nur auf Merkmale, die auf Malware hinweisen, sodass es für ein monotones Modell egal ist, wie viele „gutartige“ Merkmale eingebaut werden. Ein solches Modell würde weiterhin das Muster „Malware“ erkennen und Alarm schlagen.
Gradientenbasierte Angriffe können dadurch erschwert werden, dass KI-Modelle nur sogenannte Hard Labels ausgeben, also keine Wahrscheinlichkeiten und nur eine Kategorie (z. B. „Schadsoftware“) als Endergebnis.
Ein Angreifer könnte nun allerdings selbst ein Modell trainieren, das auf dem Hard Label Output des Opfermodells als Grundwahrheit basiert. Mithilfe dieses Transfermodells kann er dann den Gradienten des Opfermodells approximieren. Für den Verteidiger ist das Ziel nicht, die Gesamtheit der Angriffe zu vereiteln, sondern die Kosten der Gegner für die Suche nach brauchbaren ML-Angriffsmöglichkeiten so zu erhöhen, dass sie letztendlich unattraktiv wird.
Zum einen können Verteidiger auf eine breitere Palette von Datenquellen zugreifen, z. B. mithilfe von Extended Detection and Response (XDR). Zum anderen ist es wichtig, nicht ausschließlich auf KI zu vertrauen, sondern auch auf andere leistungsfähige Ansätze wie Indicators of Attack zu setzen. Letztendlich brauchen Security-Anbieter vor allem eins: Expertenwissen. Denn die Fähigkeit, gegnerische ML-Angriffe zu erkennen und sein KI-Modell dementsprechend anzupassen, ist für die Verteidigung von entscheidender Bedeutung. Nur dadurch können ML-Monokulturen verhindert und eine erfolgreiche Verteidigung aufgebaut werden.
(ID:49014681)