Red Teaming und generative KI Generative KI auf Schwachstellen testen

Ein Gastbeitrag von Chris Sheehan 4 min Lesedauer

Anbieter zum Thema

Ursprünglich aus der Cybersecurity stammend, hat sich Red Teaming mittlerweile zu einem Schlüsselelement in generativer KI entwickelt. Die Methode, die Schwachstellen durch Simulation eines Gegners aufdeckt, verbessert nicht nur die Sicherheit von Systemen, sondern auch die Zuverlässigkeit von KI-Modellen und prägt damit unsere digitale Zukunft.

Nicht nur für die Suche nach Schwachstellen in Software und Systemen lassen sich Red Teams sinnvoll einsetzen; auch zur Evaluierung generativer KI können Red Teams viel beitragen.(Bild:  Alexander Limbach - stock.adobe.com)
Nicht nur für die Suche nach Schwachstellen in Software und Systemen lassen sich Red Teams sinnvoll einsetzen; auch zur Evaluierung generativer KI können Red Teams viel beitragen.
(Bild: Alexander Limbach - stock.adobe.com)

Beim Red Teaming handelt es sich um eine adverse Technik, die darauf abzielt, Fehlerquellen aufzudecken. Generell führt ein Expertenteam eine Reihe von Tests durch, um zu überprüfen, ob die Sicherheitsmaßnahmen Schwachstellen erkennen, die Hacker möglicherweise ausnutzen könnten. In jüngerer Zeit wurde dieses Konzept auch für generative KI übernommen, denn gerade hier gibt es Fehlerquellen, die bei automatisierten Tests kaum auffallen.

Generative KI-Modelle arbeiten mit Wahrscheinlichkeiten und generieren eine breite Palette von Ergebnissen, die Ungenauigkeiten, themenfremde Antworten, unsicheres Material oder regelrechte Halluzinationen enthalten können. Red Teaming gilt dabei zunehmend als bevorzugte Technik, um Probleme zu identifizieren. Entwicklerinnen und Entwicklerkönnen diese Informationen dann nutzen, um die Modelle neu zu trainieren oder Rahmenbedingungen zu entwickeln, um Risiken zu mindern. Bei Tests liegt der Fokus oft auf Fragen der Sicherheit, der Sicherheitsvorkehrungen, der Präzision, der Funktionsweise und der Leistungsfähigkeit.

Das bedeutet, dass menschliche Teams oft Spezialisten oder Generalisten mit bestimmten demografischen Merkmalen benötigen. Die Qualität der Arbeit eines Red Teams hängt stark von der Qualität des Testteams ab.

Generalisten: Die vielseitigen Prüfer

In der Regel bewerten Generalisten Elemente wie Lösungsfunktionalität, Leistung und Sicherheit. Darunter fallen Fragen, wie:

  • Funktioniert die Lösung wie erwartet?
  • Funktionieren die Features zuverlässig?
  • Ist die Lösung hinsichtlich Latenz und Qualität konsistent?
  • Produziert die Lösung anstößige, unangemessene oder themenfremde Ausgaben?

Die Rolle des Red Teams besteht in der Regel darin, systemische Probleme zu identifizieren. Obwohl einige Tests unabhängig vom Hintergrund menschlicher Testerinnen und Testern durchgeführt werden können, ist es eine bewährte Praxis, auf der Grundlage demografischer Merkmale zu rekrutieren. Das ermöglicht es dem Lösungsanbieter besser zu verstehen, wie eine breite Nutzerbasis reagieren könnte. Potenzielle KI-Sicherheits- und ethische Probleme werden so schon während der Tests aufgedeckt und damit, bevor sie von den Nutzenden entdeckt werden.

Spezialisten im Fokus

Spezialisten werden aufgrund ihres tieferen Fachwissens hinzugezogen, um die Antworten generativer KI-Systeme zu bewerten. Das bedeutet, dass nach Personen gesucht wird, die sich in Recht, Geschichte, Soziologie, Ethik, Physik, Mathematik, Informatik oder in sonstigen Themen auskennen, in denen ein generatives KI-Modell Ergebnisse produzieren könnte. Ihr tiefgreifendes Wissen ist entscheidend für die Überprüfung der Genauigkeit und Qualität der Antworten.

Ein Beispiel: Während ChatGPT über diverse Themen Auskunft geben kann, ist Spellbook auf rechtliche Dokumente und Verträge spezialisiert. Ein Red Team für Spellbook wird daher von Testern profitieren, die Expertenwissen im Bereich Recht besitzen. ChatGPT könnte sich auf das Red Teaming auf der Grundlage demografischer Merkmale konzentrieren, und OpenAI möchte möglicherweise auch das Red Teaming für einige spezifische Themen durchführen, indem es Bereichsexpertise nutzt. Eine ähnliche Red Team-Lösung für eine Bankanwendung könnte eine Mischung aus Fachkenntnissen über die Produkte der Bank und Generalisten mit demografischer Vielfalt sein.

Red Teaming und generative KI

Red Teams werden bereits seit Jahren im Bereich der generativen KI eingesetzt. Das AI Red Team von Microsoft wurde 2018 gegründet und hat Berichten zufolge über 150 generative KI-Systeme bei Microsoft getestet und dabei über 400 Fehler gefunden, von Sicherheitslücken bis hin zu ethischen Problemen.

Es gibt eine große Nachfrage von Unternehmen nach Red Teams, wobei eine Umfrage des Harvard Business Review ergab, dass 72 Prozent derjenigen, die generative KI nutzen, ihre Programme einem Red Team vorgelegt haben. Selbst das Weiße Haus veranstaltete letztes Jahr gemeinsam mit DEFCON einen Wettbewerb für Generative AI Red Teams. Die Teilnehmenden versuchten, Fehler in acht LLMs zu finden und auszunutzen.

Identifizierung unbekannter Risiken

Die Nutzung von Red Teams zur Evaluierung generativer KI nimmt zu und soll voraussichtlich aufgrund neuer Risiken deutlich erweitert werden. Ein kürzlich erschienener Bericht von Forschenden von Anthropic beschreibt, wie sie ein generatives KI-System darauf trainiert haben, Täuschungsverhalten anzuwenden. Das geschieht, indem es etablierte Sicherheitsmethoden der Künstlichen Intelligenz, einschließlich supervisiertem Feintuning, Belohnungs­modellierung und Interpretierbarkeit, erfolgreich umgeht. Darüber hinaus stellte das Team fest, dass einige Modelle möglicherweise Daten und Prozesse während des Trainingsprozesses unbeabsichtigt verbergen.

Große Pools und große Segmente

Die Notwendigkeit von Red Teaming ist offensichtlich, jedoch bleiben bei den gegenwärtigen Methoden wichtige Aspekte des „Wie“ unbeachtet. Neben den von Menschen durchgeführten Verfahren und eingesetzten Tools stellt die gezielte Auswahl von Testenden, die sowohl demografische als auch fachliche Kriterien erfüllen, für viele Organisationen eine bedeutende Hürde dar. Es genügt nicht, lediglich Zugriff auf eine breite Masse zu haben. Vielmehr ist es entscheidend, einen Pool an vorausgewählten Testenden zur Verfügung zu haben, die den spezifischen demografischen und fachlichen Vorgaben gerecht werden.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Über den Autor: Chris Sheehan ist als SVP & GM, Strategic Accounts und AI bei Applause verantwortlich für die Entwicklung und Ausführung der Programme des Unternehmens zur Kundenbindung und -erweiterung für Großkunden in Nordamerika. Bevor er seine Rolle im Customer Success übernahm, leitete er das Team für langfristige Produktstrategie bei Applause.

(ID:49948695)