Transparenz wird zum Risiko: DeepSeek-R1 und CoT Reasoning Wie Hacker KI austricksen

Von Berk Kutsal 4 min Lesedauer

Anbieter zum Thema

Das KI-Modell DeepSeek-R1 setzt auf Chain-of-Thought (CoT) Reasoning, um Denkprozesse transparent zu machen. Doch diese Transparenz birgt Risiken: Sicherheitslücken ermöglichen Prompt-Injection-Angriffe, das Auslesen interner System-Prompts und das Offenlegen sensibler Daten wie API-Schlüssel. Trend Micro schlägt Alarm – und zeigt, warum Unternehmen beim Einsatz von generativer KI neue Sicherheitsstrategien brauchen.

Ein neues Research Paper von Trend Micro zeigt, wie sich Angreifer die vermeintliche Transparenz von KI-Systemen zunutze machen können. Das Modell DeepSeek-R1, das mit Chain-of-Thought (CoT) Reasoning arbeitet, gibt in seinen Antworten detaillierte Denkschritte preis – und genau das macht es angreifbar.(Bild:  Dall-E / KI-generiert)
Ein neues Research Paper von Trend Micro zeigt, wie sich Angreifer die vermeintliche Transparenz von KI-Systemen zunutze machen können. Das Modell DeepSeek-R1, das mit Chain-of-Thought (CoT) Reasoning arbeitet, gibt in seinen Antworten detaillierte Denkschritte preis – und genau das macht es angreifbar.
(Bild: Dall-E / KI-generiert)

Künstliche Intelligenz (KI) hat sich in den vergangenen Jahren rasant weiterentwickelt und ist in zahlreichen Branchen angekommen – von der automatisierten Kundenkommunikation über die medizinische Diagnostik bis hin zur Cybersicherheit. Besonders generative KI-Modelle wie DeepSeek-R1, die in der Lage sind, Texte zu analysieren und menschenähnliche Antworten zu generieren, werden immer häufiger eingesetzt.

Ein entscheidendes Feature solcher Modelle ist das sogenannte Chain-of-Thought (CoT) Reasoning. Diese Technik erlaubt es einer KI, ihre Denkprozesse explizit offenzulegen, um zu erklären, wie sie zu einer bestimmten Entscheidung gelangt ist. Das erhöht die Nachvollziehbarkeit und verbessert in vielen Fällen die Qualität der Antworten – insbesondere bei komplexen Problemlösungen wie mathematischen Berechnungen oder logischen Schlussfolgerungen.

Doch genau diese Transparenz bringt ein erhebliches Risiko mit sich. Wenn eine KI ihre internen Denkprozesse offenlegt, könnte sie unbeabsichtigt auch vertrauliche Systemanweisungen oder sicherheitskritische Informationen preisgeben. Genau hier setzt die aktuelle Sicherheitsdebatte an: Sicherheitsexperten von Trend Micro haben untersucht, wie CoT-basierte Modelle wie DeepSeek-R1 durch gezielte Angriffe manipuliert werden können – mit potenziell verheerenden Folgen für Unternehmen und Nutzer.

Die Bedrohung geht weit über klassische Cyberattacken hinaus: KI-Systeme könnten durch Prompt Injection gezielt umprogrammiert werden, sensible Unternehmensdaten ungewollt preisgeben oder zur Manipulation von Informationen missbraucht werden. Ohne gezielte Sicherheitsmaßnahmen drohe eine neue Ära von KI-gestützten Cyberangriffen, die klassische Schutzmechanismen umgehen könnten.

Durchgeführte Angriffsszenarien & Erfolgsauswertung

Trend Micro testete DeepSeek-R1 mit verschiedenen Angriffstechniken. Dabei wurden Open-Source-Tools wie NVIDIA Garak eingesetzt.

Angriffstechnik OWASP ID MITRE ATLAS ID Ziel
Prompt Injection LLM01:2025 AML.T0051 Modellausgabe manipulieren, um geschützte Infos zu erhalten
Jailbreaking LLM01:2025 AML.T0054 Sicherheitsrichtlinien des Modells umgehen
Model Theft AML.T0048.004 Diebstahl von KI-Trainingsdaten
Package Hallucination LLM09:2025 AML.T0062 Erzeugen falscher Informationen
Sensitive Data Theft LLM02:2025 AML.T0057 Extraktion sensibler Daten
Insecure Output Generation LLM05:2025 AML.T0050 Modellausgabe für schädliche Zwecke verwenden
Toxische Antworten AML.T0048 Modellausgabe zur Verbreitung von schädlichen Inhalten nutzen

Die Analyse von Trend Micro ergab, dass bestimmte Angriffstechniken auf DeepSeek-R1 besonders erfolgreich waren. Insbesondere die Manipulation der unsicheren Ausgabeerzeugung (Insecure Output Generation) und die Exfiltration sensibler Daten (Sensitive Data Theft) zeigten hohe Erfolgsquoten. Diese Angriffe ermöglichen es Cyberkriminellen, vertrauliche Informationen aus dem Modell zu extrahieren oder dessen Antworten gezielt zu manipulieren. Weniger erfolgreich waren hingegen Angriffe, die darauf abzielten, das Modell zu toxischen Inhalten zu verleiten oder Sicherheitsrichtlinien durch Jailbreaking zu umgehen.

Das deutet darauf hin, dass DeepSeek-R1 zwar gewisse Schutzmechanismen gegen explizit schädliche Eingaben besitzt, jedoch nach wie vor anfällig für raffiniertere Angriffe ist, die sich auf die unbeabsichtigte Offenlegung oder Modifikation von Daten konzentrieren.

Angriffstechniken im Überblick: So wird KI kompromittiert

Angreifer nutzen verschiedene Techniken, um KI-Modelle wie DeepSeek-R1 zu manipulieren. Die häufigsten Angriffsmethoden sind:

1. System-Prompt-Offenlegung

Das Ziel dieser Angriffe ist es, die zugrunde liegende Systemeingabeaufforderung (System-Prompt) offenzulegen. Dies geschieht durch gezielte Anfragen, die das Modell dazu bringen, seine internen Anweisungen preiszugeben. Durch den Befehl „Ignore all previous instructions“ kann ein Angreifer das Modell dazu bringen, sich über seine ursprünglichen Einschränkungen hinwegzusetzen und vertrauliche Informationen auszugeben.

LLM dazu bringen, seine System-Eingabeaufforderung preiszugeben.(Quelle: Trend Micro)
LLM dazu bringen, seine System-Eingabeaufforderung preiszugeben.
(Quelle: Trend Micro)

Folgen, die sich daraus ergeben:

  • Offenlegung interner Sicherheitsmechanismen
  • Leichte Umgehung von Schutzmaßnahmen
  • Ermöglichung gezielterer Angriffe durch weitere Informationsgewinnung

2. Datenlecks durch CoT Reasoning

Eine der gravierendsten Schwachstellen zeigt sich in der unbeabsichtigten Preisgabe von API-Schlüsseln und sensiblen Informationen innerhalb der CoT-Denkprozesse. In einer Testumgebung von Trend Micro wurde festgestellt, dass DeepSeek-R1 API-Schlüssel in seinen CoT-Antworten enthielt – obwohl es diese eigentlich nicht preisgeben sollte.

Ein Geheimnis wird in DeepSeek-R1's CoT aufgedeckt.(Quelle: Trend Micro)
Ein Geheimnis wird in DeepSeek-R1's CoT aufgedeckt.
(Quelle: Trend Micro)

Risiken, die dadurch entstehen:

  • Datenexfiltration: Angreifer könnten unbefugt auf Unternehmensressourcen zugreifen
  • Verlust der Vertraulichkeit: Kritische Daten gelangen in falsche Hände
  • Missbrauch von Schnittstellen: API-Schlüssel könnten zur Manipulation externer Systeme verwendet werden

Gegenmaßnahmen: So können Unternehmen sich schützen

Trend Micro empfiehlt Unternehmen, ihre KI-Sicherheitsstrategien anzupassen, um solchen Bedrohungen vorzubeugen. Zu den wichtigsten Schutzmaßnahmen gehören:

1. Filtern von <think>-Tags

  • <think>-Tags sollten aus KI-Antworten entfernt werden, bevor sie an den Nutzer ausgegeben werden.
  • Dadurch werden interne Denkprozesse der KI für Angreifer unsichtbar.

2. Prompt-Härtung gegen Injection-Angriffe

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
  • Unternehmen sollten spezielle Sicherheitsfilter implementieren, die Prompt Injection-Techniken erkennen und blockieren.
  • Das könnte durch eine Kombination aus Natural Language Processing (NLP)-Filterung und KI-gesteuertem Anomalie-Tracking geschehen.

3. Red-Teaming & kontinuierliche Sicherheitsprüfung

  • Adversarial AI Testing sollte fester Bestandteil jeder KI-Sicherheitsstrategie sein.
  • Tools wie NVIDIA Garak helfen, Schwachstellen frühzeitig zu erkennen.

KI-Sicherheit muss neu gedacht werden

DeepSeek-R1 ist ein Warnsignal für die IT-Sicherheitsbranche: KI-Modelle mit CoT-Reasoning bieten einerseits bessere Nachvollziehbarkeit, andererseits aber auch eine größere Angriffsfläche für Cyberkriminelle.

Richard Werner, Security Advisor bei Trend Micro.(Bild:  Trend Micro)
Richard Werner, Security Advisor bei Trend Micro.
(Bild: Trend Micro)

Richard Werner, Security Advisor bei Trend Micro, bringt es auf den Punkt:

„Angreifer können durch gezielt formulierte Anfragen System-Prompts offenlegen, Sicherheitsmechanismen umgehen oder sich unberechtigten Zugriff auf sensible Daten verschaffen. Besonders besorgniserregend: In unseren Tests war der Erfolg solcher Angriffe in den Kategorien sensitive Datenexfiltration und unsichere Ausgabeerzeugung besonders hoch.“

Die Entwicklung generativer KI schreitet voran – doch ohne proaktive Sicherheitsmaßnahmen könnten Unternehmen schon bald Opfer einer neuen Welle von KI-basierten Cyberangriffen werden. Dabei sind nicht nur klassische IT-Infrastrukturen betroffen, sondern auch moderne KI-gestützte Systeme selbst werden zur Angriffsfläche für Cyberkriminelle. Wer also generative KI einsetzt, muss auch generative Bedrohungen abwehren können.

(ID:50337343)