Wie Unternehmen ihre KI gegen Manipulation absichern

Jailbreaking bedroht KI-Systeme in Unternehmen Wie Unternehmen ihre KI gegen Manipulation absichern

09.03.2026 Ein Gastbeitrag von Okay Güler 5 min Lesedauer

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

KI-Systeme geraten zunehmend ins Visier von Angreifern und klassische IT-Sicherheit reicht nicht mehr aus. Um sich vor Jailbreaking, Model Stealing und Data Poisoning zu schützen, müssen Unternehmen ihre Architektur absichern und Schutzmechanismen außerhalb des Modells verankern.

Jailbreaking und andere Angriffe auf KI-Systeme erfordern neue Sicherheitsansätze. Unternehmen müssen Schutzmechanismen außerhalb des Modells verankern und KI-spezifisches Red-Teaming einsetzen.(Bild: © InfiniteFlow - stock.adobe.com) — Jailbreaking und andere Angriffe auf KI-Systeme erfordern neue Sicherheitsansätze. Unternehmen müssen Schutzmechanismen außerhalb des Modells verankern und KI-spezifisches Red-Teaming einsetzen.
(Bild: © InfiniteFlow - stock.adobe.com)

Cybersicherheit ist ein Wettkampf zwischen Verteidigung und Offensive – mit einem klaren Vorteil für die Angreifer. Denn ihnen reicht bereits eine kleine Lücke, um massiven Schaden anzurichten. Dies zeigt sich auch beim KI-Jailbreaking, also dem Umgehen der Sicherheitsfunktionen einer KI. Da KI zunehmend operative Entscheidungen trifft, Workflows automatisiert und interne Tools unterstützt, hat ein Jailbreak oft weitreichende Folgen. Ein erfolgreicher Angriff kann sich über Schnittstellen und Datenflüsse hinweg ausbreiten und so neue Schwachstellen öffnen. Die Gefahr geht dabei zwar häufig von externen Angreifern aus, doch auch interne Nutzer können ein System absichtlich oder unbewusst zu unerwünschten oder riskanten Ausgaben verleiten.

Ein in freier Wildbahn entdecktes Malware-Sample enthält eine versteckte Prompt Injection – gezielt platziert, um KI-basierte Sicherheitsanalysen zu unterlaufen. (Bild: Dall-E / KI-generiert)

Da moderne KI-Modelle zunehmend leistungsfähiger werden, müssen Cyberkriminelle raffinierter vorgehen und ausgefeiltere Sicherheitsmethoden entwickeln. Sie nutzen aus diesem Grund immer häufiger automatisierte Methoden, variieren Eingaben, testen Modellreaktionen und optimieren ihre Angriffe schrittweise. Und mit der technischen Weiterentwicklung steigt die Qualität der Angriffe, sodass klassische Abwehrmaßnahmen mittlerweile zu wenig sind. Unternehmen brauchen neue Sicherheitsansätze, die speziell auf KI zugeschnitten sind.

Manipulierte Trainings- und Eingabedaten gehören zu den zentralen Angriffsflächen agentischer Künstlicher Intelligenz: Data Poisoning und Prompt Injection setzen dort an, wo KI Entscheidungen ableitet und Aktionen auslöst. (Bild: © Xchip - stock.adobe.com)

Warum klassische Sicherheitsarchitekturen ungenügend sind

KI-Systeme arbeiten probabilistisch. Sie liefern bei gleichen Eingaben unterschiedliche Ergebnisse. Diese Eigenschaft kreiert neue Angriffsflächen und überfordert viele herkömmliche Schutzmechanismen. So bleiben Firewalls, Identity-Management oder Penetrationstests wichtig. Um KI-spezifische Risiken abzudecken, sind jedoch weitere Schutzmaßnahmen nötig.

Jailbreaking stellt indes nur einen Teil des Risikos dar. Unternehmen müssen in ihrer Planung auch andere Bedrohungen berücksichtigen, zum Beispiel Model Stealing oder Extraction Attacks. Bei dieser Art von Angriffen bauen Cyberkriminelle ein Modell nach, um sensible Daten abzufangen. Third-Party-Modelle können zudem versteckte Backdoors enthalten, adversariale Eingaben gezielt Fehlklassifikationen provozieren. Weitere Risiken entstehen durch Membership-Inference-Angriffe oder ungewollte Trainingsdatenlecks. Auch Data Poisoning und RAG Poisoning, bei denen Angreifer Inhalte in Datenquellen manipulieren, gefährden Systeme. Die Möglichkeiten, KI für bösartige Zwecke zu verwenden, sind also vielfältig. Daher muss KI-Sicherheit weit über den Schutz vor manipulierten Prompts hinausgehen.

Reasoning-Modelle verschärfen diese Risiken noch weiter. Sie verarbeiten Eingaben und leiten daraus mehrstufige Schlussfolgerungen ab, planen Zwischenschritte, prüfen eigene Überlegungen und passen ihr Vorgehen dynamisch an. So entsteht eine Problemlösefähigkeit, die über reine Mustererkennung hinausgeht. Gerade diese Fähigkeit macht sie anfällig für Missbrauch. Denn mit steigender Autonomie und umfassenderen Zugriff auf zusätzliche Werkzeuge steigt das Schadenspotenzial deutlich. Ein manipuliertes Modell kann etwa Blockaden selbstständig erkennen, einen Umweg entwickeln und diesen auch selbst umsetzen.

Enthalten KI-Modelle Sicherheitslücken, können sie durch Prompt-Injection-Angriffe dazu gebracht werden, versteckte Befehle auszuführen, Sicherheitsmechanismen zu umgehen und dabei unbemerkt persönliche Daten, gespeicherte Chats und andere sensible Informationen preiszugeben. (©Thaut Images - stock.adobe.com)

Secure-by-Design: Schutzmechanismen außerhalb des Modells

Unternehmen müssen Schutzmechanismen bereits beim Design ihrer KI-Systeme berücksichtigen. Sie sollten Sicherheitsfunktionen gezielt außerhalb des Modells verankern. Eine klare Rechtevergabe begrenzt den Zugriff der KI auf exakt definierte Daten und Funktionen. Externe Prüfmechanismen kontrollieren Eingaben und Ausgaben unabhängig vom Modell. Sie blockieren riskante Inhalte automatisch. Eine Policy Enforcement-Schicht verhindert, dass ein Jailbreak gefährliche Aktionen auslösen kann. So entsteht ein mehrstufiger Schutz, der selbst bei einem kompromittierten Modell greift.

Diese Maßnahmen bilden das Fundament sicherer KI-Systeme. Doch Sicherheit muss sich auch nach dem Systemdesign fortlaufend weiterentwickeln: Unternehmen müssen ihre Modelle im laufenden Betrieb prüfen – auch auf bisher unbekannte Angriffsmethoden.

Um herauszufinden, ob er KI-Modelle dazu bringen könnte, Malware zu erstellen und den Chrome Password Manager zu jailbreaken, dachte sich ein Sicherheitsforscher von Cato die fiktive Welt Velora aus. (Bild: Dall-E / Vogel IT-Medien GmbH / KI-generiert)

Red-Teaming statt Standardtests

KI-Systeme verhalten sich grundlegend anders als klassische Software. Deshalb brauchen sie spezielle Testverfahren. KI-spezifisches Red-Teaming simuliert Angriffe wie Jailbreaking oder Prompt-Injection. Es untersucht gezielt, wie ein Modell auf Manipulationsversuche reagiert und welche Verhaltensmuster es unter Angriffsszenarien zeigt. Im Gegensatz zu herkömmlichen Penetrationstests geht dieser Ansatz über rein technische Schwachstellen hinaus. Er betrachtet das Verhalten der KI selbst sowie die gesamte Laufzeitumgebung, einschließlich angebundener Datenquellen und Tools.

So lassen sich potenzielle Datenlecks erkennen und missbrauchbare Schnittstellen identifizieren. Red-Teaming zeigt zudem, wie ein Modell in Ausnahmesituationen reagiert und welche unbeabsichtigten Aktionen es ausführen könnte.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.

KI-Jailbreaks stellen mit zunehmender Verbreitung von generativer KI eine nicht zu unterschätzende Gefahr dar, sind sie doch in der Lage, Sicherheits- und Ethikrichtlinien eines KI-Modells auszuhebeln. Anthropic, Anbieter der Claude-LLMs, will nun einen Schutzmechnismus gefunden haben, der in 95 % aller Testfälle solche Jailbreaks unterbindet. (Bild: DALL-E / KI-generiert)

Sicherheitsbetrieb braucht lückenlose Überwachung

Ein sicherer KI-Betrieb erfordert durchgehende Überwachung – vergleichbar mit klassischen IT-Infrastrukturen, die durch Security Operations Center, Logging und Alarmierung geschützt sind. Besonders wichtig ist das bei Modellen mit erweiterten Rechten oder öffentlichem Zugang.

Spezialisierte Schutzmechanismen helfen, Risiken früh zu erkennen. Dazu zählen KI-Proxies, die sensible Inhalte filtern, Kontroll-Proxies zur Prüfung kritischer Aktionen und KI-Firewalls, die den Datenverkehr analysieren. Ergänzend beobachten Unternehmen Modellantworten, Tool-Aufrufe und Datenflüsse. So lassen sich Anomalien schnell erkennen und Angriffe im Frühstadium stoppen.

Mit wachsender Autonomie gewinnt die lückenlose Nachvollziehbarkeit an Bedeutung. Unternehmen müssen Entscheidungen, Zwischenschritte und sicherheitsrelevante Aktionen vollständig protokollieren. Nur ein transparenter, regelmäßig gepflegter Audit-Trail ermöglicht eine gründliche Analyse von Vorfällen, klare Verantwortlichkeiten und wirksame Sicherheitsmaßnahmen.

Dieser Artikel zeigt wesentliche Aspekte und Ansatzpunkte für eine richtlinienkonforme und sichere Entwicklung von KI-Anwendungen auf. (Bild: ImageFlow - stock.adobe.com)

Organisatorische Voraussetzungen für nachhaltige KI-Sicherheit

Technische Maßnahmen wirken nur im Zusammenspiel mit klaren organisatorischen Strukturen. Dazu gehört ein zentral gesteuerter KI-Lifecycle, der Planung, Modellwahl, Betrieb und Außerbetriebnahme abdeckt. Verantwortlichkeiten für Betrieb, Sicherheit und Monitoring müssen eindeutig zugewiesen sein, sodass alle Mitarbeitenden jederzeit einen klaren Überblick über die Zuständigkeiten haben.

Mitarbeiter brauchen Schulungen, um Risiken durch manipulierte Eingaben oder unsachgemäße Nutzung zu erkennen. Verbindliche Nutzungsrichtlinien und Notfallprozesse sorgen dafür, dass Unternehmen bei Jailbreaks oder Datenlecks schnell und koordiniert handeln können. Eine zentrale Übersicht über eingesetzte Modelle, Datenquellen und Richtlinien erleichtert die Einhaltung von Compliance-Vorgaben und schafft Transparenz.

Damit organisatorische Vorgaben wirken, braucht es eine tragfähige technische Grundlage. Eine sichere KI-Architektur verbindet robuste Infrastruktur, vertrauenswürdige Lieferketten und nachvollziehbare Prüfprozesse. Nur wenn diese Basis stimmt, greifen Sicherheitskonzepte auch im laufenden Betrieb.

Vertrauen in KI entsteht nicht allein durch Technologie, sondern durch Transparenz, klare Regeln, unabhängige Kontrolle und einen offenen gesellschaftlichen Diskurs. (Bild: © Blue Planet Studio - stock.adobe.com)

Architektur, Lieferketten und Assurance werden zentral

Die Sicherheit von KI-Systemen entscheidet sich zunehmend auf struktureller Ebene. Besonders wichtig sind dabei zwei Faktoren: wie konsequent Unternehmen externe Schutzmaßnahmen umsetzen und wie strikt sie Rechte und Zugriffe steuern.

Gleichzeitig wächst die Bedeutung gesicherter Lieferketten für Daten und Modelle. Herkunftsnachweise und kryptografische Sicherungen werden wichtiger. Langfristig braucht es institutionalisierte Assurance-Programme mit kontinuierlichem Red-Teaming, klaren Sicherheitsmetriken und unabhängiger Risikoüberprüfung.

Zudem verschärfen regulatorische Vorgaben wie der EU AI Act sowie Standards wie das NIST AI Risk Management Framework oder ISO 42001 die Anforderungen an Governance, Monitoring und Dokumentation. Unternehmen, die bereits heute in robuste Architekturen, verlässliche Überwachungsstrukturen und eine gelebte Sicherheitskultur investieren, sichern sich Schutz vor Angriffen und einen entscheidenden Vorteil im Wettbewerb.

Über den Autor: Okay Güler ist Gründer und CEO von CLOUDYRION. Nachdem er im Banking und Automotive-Bereich Erfahrung als Ethical Hacker sammeln konnte, gründete Güler 2020 CLOUDYRION. Seine Motivation: Unternehmen zu helfen, die neuen Herausforderungen im Cyberspace zu bewältigen und Awareness für Secure-by-Design zu schaffen.

Die Einführung von generativer KI (GenAI) in Unternehmen führt zu neuen Risiken – intern durch die stark steigende Vernetzung durch APIs und fehlerhafte Bedienung, extern durch neuartige Angriffsmöglichkeiten für Cyberkriminelle. (Bild: rufous - stock.adobe.com)

(ID:50772822)