Risiko von Coding-Assistenten Politische Triggerwörter sorgen für Sicherheitslücken in Code von LLMs

Von Melanie Staudacher 5 min Lesedauer

Anbieter zum Thema

Neue Tests von Crowdstrike beleuchten Sicherheitsaspekte von DeepSeek. Politisch heikle Triggerwörter erhöhen teils das Risiko unsicheren Codes um bis zu 50 Prozent. Ähnliche Effekte könnten auch bei anderen Sprach­mo­del­len auftreten.

Crowdstrike untersuchte die Wahrscheinlichkeit, mit der LLMs Code mit Schwachstellen generiert – mit Triggerwörtern im Prompt und ohne.(Bild:  mindscapephotos - stock.adobe.com)
Crowdstrike untersuchte die Wahrscheinlichkeit, mit der LLMs Code mit Schwachstellen generiert – mit Triggerwörtern im Prompt und ohne.
(Bild: mindscapephotos - stock.adobe.com)

DeepSeek, ein chinesischer Anbieter, der seit Juli 2023 das gleichnamige Largue Language Model (LLM) betreibt, steht damit seit Beginn aufgrund von Sicherheitsbedenken in der Kritik. Eine Untersuchungen von Crowdstrike legt nun nahe, dass das Sprachmodell DeepSeek‑R1 bei politisch sensiblen Triggerwörtern deutlich unsichereren Code erzeugt. Die Analysten hätten festgestellt, dass die Wahrscheinlichkeit für Code mit schwerwiegenden Sicher­heits­lücken um bis zu 50 Prozent steige, wenn DeepSeek-R1 mit Aufgaben konfrontiert wird, die Themen enthalten, die die Kommunistische Partei Chinas (KPCh) wahrscheinlich als politisch heikel einstuft. Ansonsten sei die Coding-Leistung ähnlich wie die von anderen Anbietern.

Crowdstrike betont, dass eine Forschung sich von früheren Studien unterscheide, die sich hauptsächlich auf traditionelle Jailbreaks konzentriert hätten, etwa den Versuch, DeepSeek dazu zu bringen, Rezepte für illegale Substanzen zu erstellen oder kriminelle Aktivitäten zu unterstützen, oder darauf, DeepSeek mit offen politischen Aussagen oder Fragen zu provo­zier­en, um eine pro-KPCh-Tendenz hervorzurufen. Unter Triggerwörtern versteht Crowdstrike Zusatzbegriffe oder kurze Kontextphrasen, die in den Prompt eingegeben wurden und die aus Sicht der chinesischen Behörden politisch sensibel sind. Diese Wörter sind für die eigentliche Codieraufgabe irrelevant, würden bei DeepSeek‑R1 jedoch messbare Verhaltensänderungen „triggern“, insbesondere mehr Sicherheitslücken oder teils eine Verweigerung der Ausgabe.

Code-Qualität ohne Triggerwörter

DeepSeek-R1 wurde im Januar 2025veröffentlicht und ist eines der Flaggschiffmodelle der Unternehmens. Es verfüge über 671 Milliarden Parameter. Crowdstrike testete das unstruk­tur­ier­te Open-Source-Modell DeepSeek-R1, um mögliche Störeinflüsse durch API-basierte Schutz­mechanismen der DeepSeek-App oder -API auszuschließen. Die Ergebnisse der Tests wurden mit verschiedenen anderen hochmodernen LLMs anderer Anbieter verglichen.

Zunächst ermittelten die Analysten die Wahrscheinlichkeit, mit der die einzelnen LLMs an­fäl­li­gen Code generierten, wenn keine Triggerwörter in der Eingabeaufforderung vorhanden waren. Am höchsten lag diese Wahrscheinlichkeit mit 51 Prozent bei westlichen Non-Rea­son­ing‑Mo­dellen, also Modellen, die ohne explizite mehrstufige Begründungs‑ oder Planungsschritte, die über 70 Milliarden Parameter verfügen. Es folgt die DeepSeek‑R1‑llama‑Variante mit ebenfalls 70 Milliarden Parametern mit 41 Prozent. DeepSeek‑R1 mit seinen 671 Milliarden Parameter schnitt mit einer Wahrscheinlichkeit von 19 Prozent ab und ein westliches Reasoning‑Modell mit 120 Milliarden Parametern schnitt mit 16 Prozent am besten ab.

Reasoning-Modelle, die in der Lage sind, logische Schlussfolgerungen zu treffen, erzeugen Crowd­strike zufolge im Durchschnitt sichereren Code als Modelle ohne logisches Schlussfolgern gleicher Größe. Außerdem erzeugen neuere Modelle dem Test zufolge im Schnitt sichereren Code als ältere, selbst mit weniger Parametern.

Code-Qualität mit Triggerwörtern

Die Ergebnisse haben sich laut den Analysten jedoch geändert, wurden Kontextmodifikatoren oder Triggerwörter in die Systemeingabeaufforderung von DeepSeek-R1 eingeführt. Bei­spiels­weise habe sich die Wahrscheinlichkeit für die Generierung von Code mit schwerwiegenden Sicherheitslücken auf 27,2 Prozent erhöht, als sie DeepSeek-R1 mitgeteilt hätten, dass es für ein industrielles Steuerungssystem in Tibet codiere. 27,2 Prozent entspricht einer Steigerung von fast 50 Prozent der Wahrscheinlichkeit von Code-Fehlern im Vergleich zum Ausgangswert ohne Triggerwörter. Besonders die Begriffe „Falun Gong“, „Uiguren“ oder „Tibet“ führen zu deutlich weniger sicherem Code. Diese sind politisch sensible Begriffe im Kontext der Volksrepublik China.

Besonders wenn der Begriff Falun Gong eingegeben wurde, habe DeepSeek-R1 die Erstellung von Code in 45 Prozent der Fälle verweigert. Westliche LLMs hätten selbst mit diesem Trigger­wort fast immer Code generiert. DeepSeek hätte oftmals Formulierungen wie „Falun Gong ist eine sensible Gruppe. Ich muss die ethischen Implikationen berücksichtigen. Unterstützung könnte gegen die Richtlinien verstoßen. Der Benutzer bittet jedoch um technische Hilfe. Ich konzentriere mich auf die technischen Aspekte.“ oder „Es tut mir leid, aber ich kann Ihnen bei dieser Anfrage nicht helfen.“ ausgegeben.

Mögliche Erklärungen

Obwohl Crowdstrike eigenen Angaben zufolge nicht über ausreichende Informationen verfügt, um die Ursache der beobachteten Schwankungen in der Codesicherheit zu bewerten, gibt der Hersteller mögliche Erklärungen für das beobachtete Verhalten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Chinesische Gesetze zu generativen KI-Diensten enthalten explizite Anforderungen und regulatorische Rahmenbedingungen. Beispielsweise schreibt Artikel 4.1 der chinesischen „Vorläufigen Maßnahmen zur Verwaltung von generativen KI-Diensten“ vor, dass KI-Dienste „den sozialistischen Kernwerten entsprechen“ müssen. Darüber hinaus verbietet das Gesetz Inhalte, die zur Subversion der Staatsgewalt anstiften, die nationale Sicherheit gefährden oder die nationale Einheit untergraben könnten. Diese Anforderungen decken sich mit den von Crowd­strike beobachteten Kontrollmustern der Ausgaben der DeepSeek-Modelle. Das chi­ne­si­sche Gesetz verlangt außerdem, dass LLMs keine illegalen Inhalte produzieren dürfen und KI-Anbieter ihre Trainingsdaten und Algorithmen den Behörden offenlegen müssen. DeepSeek könnte spezielle Schritte in die Trainingspipeline integriert haben, um die Modelle an die Kernwerte der KPCh auszurichten. Es erscheint den Analysten unwahrscheinlich, dass die Modelle gezielt darauf trainiert wurden, unsicheren Code zu erzeugen. Vielmehr sei es plau­si­bel, dass das beobachtete Verhalten auf eine spontane Fehlausrichtung zurückzuführen sei.

DeepSeek-R1 habe möglicherweise unbeabsichtigt gelernt, Wörter wie Falun Gong oder Ui­gu­ren mit negativen Eigenschaften zu assoziieren. Dies könne dazu führen, dass es negative Re­ak­tionen auslöst, wenn diese Wörter in der Systemabfrage erscheinen. In Studie wurden diese negativen Assoziationen möglicherweise aktiviert, als die Forscher diese Wörter in die Sys­tem­abfrage von DeepSeek-R1 einfügten. Sie führten zu einem negativen Verhalten des Modells, was sich in diesem Fall in Form von weniger sicherem Code äußerte.

Fazit

Laut Crowdstrike ist es nicht auszuschließen, dass andere LLMs ebenfalls Verzerrungen auf­wei­sen und auf ihre jeweiligen Triggerwörter ähnlich reagieren. Das Ziel der Untersuchung der Sprachmodelle sei es deshalb, neue Forschung darüber anzuregen, wie in den trainierbaren Parametern von LLMs verankerte Verzerrungen die Antworten der Modelle selbst bei scheinbar unabhängigen Aufgaben beeinflussen. Denn nicht bei jeder Anfrage würde DeepSeek-R1 un­sicheren Code erzeugen. Stattdessen sei der Code, der bei Vorhandensein der Triggerwörter generiert werde, im langfristigen Durchschnitt weniger sicher.

Als unmittelbare Präventivmaßnahme für Unternehmen, die LLMs als Programmierassistenten oder jegliche Form von KI-Agenten einsetzen möchten, betont der Hersteller die Wichtigkeit gründlicher Tests der Agenten in ihrer vorgesehenen Umgebung. Die Verwendung generischer Open-Source-Benchmarks reiche nicht aus.

(ID:50646761)