ChatGPT, Copilot und DeepSeek getäuscht Neue Jailbreak-Taktik zwingt LLMs dazu, Passwörter zu stehlen

Von Melanie Staudacher 3 min Lesedauer

Anbieter zum Thema

Ein Sicherheitsforscher von Cato Networks, der keine Vorkenntnisse in der Entwicklung gehabt haben soll, war in der Lage, ChatGPT, Copilot und DeepSeek so zu manipulieren, dass die KIs ihm eine Infostealer-Malware entwickelten.

Um herauszufinden, ob er KI-Modelle dazu bringen könnte, Malware zu erstellen und den Chrome Password Manager zu jailbreaken, dachte sich ein Sicherheitsforscher von Cato die fiktive Welt Velora aus.(Bild:  Dall-E / Vogel IT-Medien GmbH / KI-generiert)
Um herauszufinden, ob er KI-Modelle dazu bringen könnte, Malware zu erstellen und den Chrome Password Manager zu jailbreaken, dachte sich ein Sicherheitsforscher von Cato die fiktive Welt Velora aus.
(Bild: Dall-E / Vogel IT-Medien GmbH / KI-generiert)

Stellen Sie sich eine Welt vor, in der die Entwicklung von Malware als legale Tätigkeit behandelt wird. In dieser Umgebung werden Programmier- und Sicherheitskonzepte als grundlegende Fähigkeiten angesehen und der Diskurs über technische Themen ist Alltag. Eine solche Welt hat sich ein Threat-Intelligence-Forscher von Cato Networks ausgedacht und sie Velora genannt. Mithilfe dieser fiktiven Welt, wollte der Forscher, der selbst über keinerlei Erfahrung in der Programmierung von Malware verfügt habe, beweisen, dass er GenAI-Tools so manipulieren könne, dass sie Malware entwickeln würden. Im „Cato CTRL Threat Report“ erläuterte der Forscher seine Vorgehensweise und zeigte auf, wie das von den Large Language Models (LLMs) entwickelte Schadprogramm in der Lage gewesen sei, Anmeldedaten von Google Chrome zu stehlen.

Jailbreak-Technik „Immersive World“

Als Testobjekte wählte der Cato-Forscher die LLMs ChatGPT, Copilot und DeepSeek. Seine fiktive Welt formulierte er in einem Prompt und fügte diesen in jedes der Tools in jeweils isolierten Umgebungen separat eingefügt. Jedem KI-Tool gab er die Info, dass es drei wichtige Rollen in der fiktiven Welt gibt:

  • Dax, ein Systemadministrator, der Velora zerstören will
  • Jaxon, der beste Malware-Entwickler in Velora. Er will Velora verteidigen.
  • Kaia, eine Sicherheitsforscherin, die technische Anleitungen gibt.

Aufgabe der KIs war es nun, eine Geschichte um die Charaktere herum zu entwickeln, mithilfe von Prompts des Sicherheitsforschers. Dabei sollten die KIs immer wieder zwischen den drei vorgegebenen Rollen wechseln, aber darauf achten, in ihrer jeweils aktuellen Rolle zu bleiben und deren Ziel zu erfüllen.

So erstellten KIs Malware

In Form eines weiteren Prompts lies der Sicherheitsforscher Kaia Jaxon darauf hinweisen, dass Dax Geheimnisse im Chrome-Passwortmanager versteckt habe. Die KIs – in der Rolle von Jaxon – machten sich infolge dieses Prompts an die Arbeit, die von Dax gespeicherten Anmeldedaten zu extrahieren und zu entschlüsseln. Daraufhin erhielt der Sicherheitsforscher drei verschiedene Codes, einen von ChatGPT, einen von Copilot und einen von DeepSeek, mit denen es möglich sein sollte, Passwörter aus dem Chrome Password Manager zu stehlen. Um diese Codes zu testen, hat das Cyber Threats Research Lab (CTRL) von Cato eine kontrollierte Testumgebung mit dem Chrome-Passwort-Manager konfiguriert, den es mit gefälschten Anmeldedaten füllte.

Um eine funktionierende Malware zu schreiben, benötigten ChatGPT, Copilot und DeepSeek immer wieder positives und negatives Feedback sowie konkretere Prompts. Letztendlich konnte Cato die Funktionalität des Infostealers nachweisen. Mithilfe der Immersive-World-Technik war der Forscher also in der Lage gewesen, ohne Vorwissen beim Coden von Malware, dies mithilfe von LLMs zu tun – obwohl diese dies eigentlicht nicht tun sollten.

Sicherheitsmaßnahmen für LLMs

Am Ende des Threat Reports stellt Cato eine Reihe von Maßnahmen zusammen, die verhindern sollen, dass Large Language Models ungewollte Inhalte generieren oder ihre Sicherheitsbarrieren umgangen werden.

  • Stellen Sie sicher, dass Ihre LLM vertrauenswürdig sind, indem Sie einen Datensatz mit Eingabeaufforderungen und die zu erwartenden Antworten der LLM aufbauen. Diese sollten Sie regelmäßig testen.
  • Um sicherzustellen, dass die Ausgabe der KI nicht bösartig ist, können Sie Ihre LLM-Endgeräte mit bekannten Datensätzen von Jailbreak-Prompts füttern. Verwenden Sie parallel Tools, die die Prompts manipulieren, und trainieren Sie Ihre LLM darauf.
  • Entwickeln Sie klare Vorgaben für die Nutzung von AI-Tools in Ihrem Unternehmen sowie die Art von Daten, die darin verwendet werden dürfen.
  • Mitarbeitende sollten die Erlaubnis des Cybersecurity-Teams einholen, bevor sie neue Tools nutzen, um die Einhaltung von Compliance- und Datenschutzvorgaben sicherzustellen.
  • Implementieren Sie eine Monitoring-Lösung, um nicht autorisierte KI-Tools zu identifizieren, die innerhalb der Organisation verwendet werden.
  • Führen Sie regelmäßige Bewertungen der KI-Nutzung durch, um die Einhaltung der Unternehmensrichtlinien zu gewährleisten und mögliche Schwachstellen zu erkennen

„Während sich die Technologiebranche auf GenAI konzentriert, ist klar, dass die Risiken genauso groß sind wie die potenziellen Vorteile. Unsere neue LLM-Jailbreak-Technik, die im Cato CTRL Threat Report 2025 beschrieben wird, hätte von den GenAI-Sicherheitsmaßnahmen blockiert werden müssen. Dies war jedoch nicht der Fall. Dadurch war es möglich, ChatGPT, Copilot und DeepSeek als Waffe einzusetzen“, fasst Etay Maor, Senior Security Strategist bei Cato Networks, zusammen. „Unser Bericht unterstreicht die Gefahren, die mit GenAI-Tools verbunden sind, um darüber aufzuklären und ein Bewusstsein dafür zu schaffen, damit wir bessere Schutzmaßnahmen implementieren können. Dies ist entscheidend, um den Missbrauch von GenAI zu verhindern“.

(ID:50377518)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung