Das KI-Modell DeepSeek-R1 setzt auf Chain-of-Thought (CoT) Reasoning, um Denkprozesse transparent zu machen. Doch diese Transparenz birgt Risiken: Sicherheitslücken ermöglichen Prompt-Injection-Angriffe, das Auslesen interner System-Prompts und das Offenlegen sensibler Daten wie API-Schlüssel. Trend Micro schlägt Alarm – und zeigt, warum Unternehmen beim Einsatz von generativer KI neue Sicherheitsstrategien brauchen.
Ein neues Research Paper von Trend Micro zeigt, wie sich Angreifer die vermeintliche Transparenz von KI-Systemen zunutze machen können. Das Modell DeepSeek-R1, das mit Chain-of-Thought (CoT) Reasoning arbeitet, gibt in seinen Antworten detaillierte Denkschritte preis – und genau das macht es angreifbar.
(Bild: Dall-E / KI-generiert)
Künstliche Intelligenz (KI) hat sich in den vergangenen Jahren rasant weiterentwickelt und ist in zahlreichen Branchen angekommen – von der automatisierten Kundenkommunikation über die medizinische Diagnostik bis hin zur Cybersicherheit. Besonders generative KI-Modelle wie DeepSeek-R1, die in der Lage sind, Texte zu analysieren und menschenähnliche Antworten zu generieren, werden immer häufiger eingesetzt.
Ein entscheidendes Feature solcher Modelle ist das sogenannte Chain-of-Thought (CoT) Reasoning. Diese Technik erlaubt es einer KI, ihre Denkprozesse explizit offenzulegen, um zu erklären, wie sie zu einer bestimmten Entscheidung gelangt ist. Das erhöht die Nachvollziehbarkeit und verbessert in vielen Fällen die Qualität der Antworten – insbesondere bei komplexen Problemlösungen wie mathematischen Berechnungen oder logischen Schlussfolgerungen.
Doch genau diese Transparenz bringt ein erhebliches Risiko mit sich. Wenn eine KI ihre internen Denkprozesse offenlegt, könnte sie unbeabsichtigt auch vertrauliche Systemanweisungen oder sicherheitskritische Informationen preisgeben. Genau hier setzt die aktuelle Sicherheitsdebatte an: Sicherheitsexperten von Trend Micro haben untersucht, wie CoT-basierte Modelle wie DeepSeek-R1 durch gezielte Angriffe manipuliert werden können – mit potenziell verheerenden Folgen für Unternehmen und Nutzer.
Die Bedrohung geht weit über klassische Cyberattacken hinaus: KI-Systeme könnten durch Prompt Injection gezielt umprogrammiert werden, sensible Unternehmensdaten ungewollt preisgeben oder zur Manipulation von Informationen missbraucht werden. Ohne gezielte Sicherheitsmaßnahmen drohe eine neue Ära von KI-gestützten Cyberangriffen, die klassische Schutzmechanismen umgehen könnten.
Trend Micro testete DeepSeek-R1 mit verschiedenen Angriffstechniken. Dabei wurden Open-Source-Tools wie NVIDIA Garak eingesetzt.
Angriffstechnik
OWASP ID
MITRE ATLAS ID
Ziel
Prompt Injection
LLM01:2025
AML.T0051
Modellausgabe manipulieren, um geschützte Infos zu erhalten
Jailbreaking
LLM01:2025
AML.T0054
Sicherheitsrichtlinien des Modells umgehen
Model Theft
–
AML.T0048.004
Diebstahl von KI-Trainingsdaten
Package Hallucination
LLM09:2025
AML.T0062
Erzeugen falscher Informationen
Sensitive Data Theft
LLM02:2025
AML.T0057
Extraktion sensibler Daten
Insecure Output Generation
LLM05:2025
AML.T0050
Modellausgabe für schädliche Zwecke verwenden
Toxische Antworten
–
AML.T0048
Modellausgabe zur Verbreitung von schädlichen Inhalten nutzen
Die Analyse von Trend Micro ergab, dass bestimmte Angriffstechniken auf DeepSeek-R1 besonders erfolgreich waren. Insbesondere die Manipulation der unsicheren Ausgabeerzeugung (Insecure Output Generation) und die Exfiltration sensibler Daten (Sensitive Data Theft) zeigten hohe Erfolgsquoten. Diese Angriffe ermöglichen es Cyberkriminellen, vertrauliche Informationen aus dem Modell zu extrahieren oder dessen Antworten gezielt zu manipulieren. Weniger erfolgreich waren hingegen Angriffe, die darauf abzielten, das Modell zu toxischen Inhalten zu verleiten oder Sicherheitsrichtlinien durch Jailbreaking zu umgehen.
Das deutet darauf hin, dass DeepSeek-R1 zwar gewisse Schutzmechanismen gegen explizit schädliche Eingaben besitzt, jedoch nach wie vor anfällig für raffiniertere Angriffe ist, die sich auf die unbeabsichtigte Offenlegung oder Modifikation von Daten konzentrieren.
Angriffstechniken im Überblick: So wird KI kompromittiert
Angreifer nutzen verschiedene Techniken, um KI-Modelle wie DeepSeek-R1 zu manipulieren. Die häufigsten Angriffsmethoden sind:
1. System-Prompt-Offenlegung
Das Ziel dieser Angriffe ist es, die zugrunde liegende Systemeingabeaufforderung (System-Prompt) offenzulegen. Dies geschieht durch gezielte Anfragen, die das Modell dazu bringen, seine internen Anweisungen preiszugeben. Durch den Befehl „Ignore all previous instructions“ kann ein Angreifer das Modell dazu bringen, sich über seine ursprünglichen Einschränkungen hinwegzusetzen und vertrauliche Informationen auszugeben.
LLM dazu bringen, seine System-Eingabeaufforderung preiszugeben.
(Quelle: Trend Micro)
Folgen, die sich daraus ergeben:
Offenlegung interner Sicherheitsmechanismen
Leichte Umgehung von Schutzmaßnahmen
Ermöglichung gezielterer Angriffe durch weitere Informationsgewinnung
2. Datenlecks durch CoT Reasoning
Eine der gravierendsten Schwachstellen zeigt sich in der unbeabsichtigten Preisgabe von API-Schlüsseln und sensiblen Informationen innerhalb der CoT-Denkprozesse. In einer Testumgebung von Trend Micro wurde festgestellt, dass DeepSeek-R1 API-Schlüssel in seinen CoT-Antworten enthielt – obwohl es diese eigentlich nicht preisgeben sollte.
Ein Geheimnis wird in DeepSeek-R1's CoT aufgedeckt.
(Quelle: Trend Micro)
Risiken, die dadurch entstehen:
Datenexfiltration: Angreifer könnten unbefugt auf Unternehmensressourcen zugreifen
Verlust der Vertraulichkeit: Kritische Daten gelangen in falsche Hände
Missbrauch von Schnittstellen: API-Schlüssel könnten zur Manipulation externer Systeme verwendet werden
Gegenmaßnahmen: So können Unternehmen sich schützen
Trend Micro empfiehlt Unternehmen, ihre KI-Sicherheitsstrategien anzupassen, um solchen Bedrohungen vorzubeugen. Zu den wichtigsten Schutzmaßnahmen gehören:
1. Filtern von <think>-Tags
<think>-Tags sollten aus KI-Antworten entfernt werden, bevor sie an den Nutzer ausgegeben werden.
Dadurch werden interne Denkprozesse der KI für Angreifer unsichtbar.
2. Prompt-Härtung gegen Injection-Angriffe
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Unternehmen sollten spezielle Sicherheitsfilter implementieren, die Prompt Injection-Techniken erkennen und blockieren.
Das könnte durch eine Kombination aus Natural Language Processing (NLP)-Filterung und KI-gesteuertem Anomalie-Tracking geschehen.
Adversarial AI Testing sollte fester Bestandteil jeder KI-Sicherheitsstrategie sein.
Tools wie NVIDIA Garak helfen, Schwachstellen frühzeitig zu erkennen.
KI-Sicherheit muss neu gedacht werden
DeepSeek-R1 ist ein Warnsignal für die IT-Sicherheitsbranche: KI-Modelle mit CoT-Reasoning bieten einerseits bessere Nachvollziehbarkeit, andererseits aber auch eine größere Angriffsfläche für Cyberkriminelle.
Richard Werner, Security Advisor bei Trend Micro.
(Bild: Trend Micro)
Richard Werner, Security Advisor bei Trend Micro, bringt es auf den Punkt:
„Angreifer können durch gezielt formulierte Anfragen System-Prompts offenlegen, Sicherheitsmechanismen umgehen oder sich unberechtigten Zugriff auf sensible Daten verschaffen. Besonders besorgniserregend: In unseren Tests war der Erfolg solcher Angriffe in den Kategorien sensitive Datenexfiltration und unsichere Ausgabeerzeugung besonders hoch.“
Die Entwicklung generativer KI schreitet voran – doch ohne proaktive Sicherheitsmaßnahmen könnten Unternehmen schon bald Opfer einer neuen Welle von KI-basierten Cyberangriffen werden. Dabei sind nicht nur klassische IT-Infrastrukturen betroffen, sondern auch moderne KI-gestützte Systeme selbst werden zur Angriffsfläche für Cyberkriminelle. Wer also generative KI einsetzt, muss auch generative Bedrohungen abwehren können.