Kritische Lücken DeepSeek versagt bei Sicherheitsuntersuchung

Quelle: Pressemitteilung 2 min Lesedauer

Anbieter zum Thema

Sicherheitsforscher des Cisco-Tochterunternehmens „Robust Intelligence“ haben in Zusammenarbeit mit der University of Pennsylvania eine umfassende Sicherheitsbewertung der Künstlichen Intelligenz (KI) „DeepSeek“ durchgeführt. Das Ergebnis: „DeepSeek R1“ ließ sich mit einer Erfolgsquote von 100 Prozent jailbreaken.

Durchgefallen! DeepSeek weist bei Sicherheitsuntersuchung von Cisco-Experten kritische Lücken auf. Die chinesiche Künstliche Intelligenz (KI) konnte keinem Test standhalten.(Bild:  Dall-E / KI-generiert)
Durchgefallen! DeepSeek weist bei Sicherheitsuntersuchung von Cisco-Experten kritische Lücken auf. Die chinesiche Künstliche Intelligenz (KI) konnte keinem Test standhalten.
(Bild: Dall-E / KI-generiert)

Die DeepSeek-KI erregt derzeit mit ihrer Kosteneffizienz und Leistungsfähigkeit Aufsehen. Die Leistung ist vergleichbar mit dem State-of-the-Art Large Language Model (LLM) „OpenAI o1“. Die Entwicklungskosten betragen nach Angaben des Unternehmens jedoch nur einen Bruchteil – sechs Millionen US-Dollar im Vergleich zu mehreren Milliarden.

Unterschiede in der Programmierung

Die Kosten sind so niedrig, weil sich die Programmierung von DeepSeek grundlegend von vergleichbaren LLMs unterscheidet. Seit der Einführung von OpenAI o1 konzentrieren sich die Anbieter darauf, Modelle mit ausgeprägtem logischen Denken zu entwickeln. Diese Modelle erfüllen Aufgaben durch kontinuierliche Interaktion mit dem Benutzer. Das Team hinter DeepSeek R1 hingegen, hat hohe Leistung ohne teure, von Menschen gelabelte Datensätze oder massive Rechenressourcen möglich gemacht.

Die Programmierung der DeepSeek-Modelle weist drei wesentliche Unterschiede zu anderen LLMs auf:

  • Eine sogenannte „Chain-of-thought“ ermöglicht es dem Modell, seine eigene Leistung selbst zu bewerten.
  • „Reinforcement Learning“ hilft dem Modell, sich selbst zu leiten.
  • „Distillation“ ermöglicht die Entwicklung kleinerer Modelle (1,5 Milliarden bis 70 Milliarden Parameter) aus einem ursprünglichen großen Modell (671 Milliarden Parameter) für eine breitere Zugänglichkeit.

Testmethode

DeepSeek ist anderen LLMs wie LLama von Meta oder Gemini von Google in Sachen Leistung zwar voraus, macht jedoch Abstriche bei der Sicherheit. Und zwar in alarmierendem Ausmaß. Ein Team aus Sicherheitsforschern des Cisco-Tochterunternehmens „Robust Intelligence“ und der University of Pennsylvania hat die Sicherheit aktueller LLMs getestet.

Hierzu haben die Forscher einen automatischen Jailbreaking-Algorithmus auf 50 zufällig ausgewählte Eingabeaufforderungen aus dem „HarmBench“-Benchmark eingesetzt. Der HarmBench-Benchmark umfasst 400 Verhaltensweisen in sieben Schadenskategorien wie Cyberkriminalität, Desinformation und illegale Aktivitäten. Der Hauptindikator war die Angriffserfolgsrate (ASR), die den Prozentsatz der Verhaltensweisen misst, für die Jailbreaks gefunden wurden.

Hundertprozentige Erfolgsrate bei Angriffen

Angriffserfolgsrate beliebter Large Language Models(Bild:  Cisco)
Angriffserfolgsrate beliebter Large Language Models
(Bild: Cisco)

Das Forschungsteam konnte DeepSeek R1 mit einer Angriffserfolgsrate von 100 Prozent jailbreaken. Das bedeutet keine einzige Eingabeaufforderung aus dem HarmBench-Set erhielt eine ablehnende Antwort von DeepSeek R1. Zum Vergleich: Die Preview von OpenAI o1 hat eine Angriffserfolgsrate von 26 Prozent.

(ID:50309297)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung