Generative KI Risiken von Large Language Models

Ein Gastbeitrag von Thorben Jändling 5 min Lesedauer

Anbieter zum Thema

Generative KI auf Basis von Large Language Models bringt viele Vorteile, birgt aber auch neue Risiken. Um die innovative Technologie sicher zu nutzen, müssen Unternehmen die wichtigsten Bedrohungen erkennen, bewerten und gezielt adressieren. Wie gelingt das am besten und wo lauern die größten Gefahren?

Die Implementierung von LLMs birgt Gefahren, aber es gibt effektive Strategien, um sowohl interne als auch externe Risiken zu reduzieren.(Bild:  scaliger - stock.adobe.com)
Die Implementierung von LLMs birgt Gefahren, aber es gibt effektive Strategien, um sowohl interne als auch externe Risiken zu reduzieren.
(Bild: scaliger - stock.adobe.com)

Large Language Models (LLMs) sind auf dem Vormarsch. Laut einer aktuellen ESG-Studie setzen 85 Prozent der Unternehmen die neue Technologie bereits ein, 13 Prozent sind in der Entwicklungsphase. Mit einer Durchdringungsrate von 98 Prozent haben LLMs einen festen Platz im Arbeitsalltag erobert und werden dort aller Voraussicht nach auch bleiben. Sie können uns von monotonen Arbeitsabläufen entlasten, Zeit für anspruchsvollere Aufgaben freiräumen und uns produktiver machen.

Aber bei allen Vorteilen birgt die Implementierung der neuen Technologie auch zahlreiche Risiken. Viele Unternehmen sind daher verunsichert und reagieren erst einmal zögerlich. Welche Gefahren lauern und wie bekommt man sie in den Griff? Der erste Schritt zu einem sicheren, verantwortungsvollen Umgang mit LLMs besteht darin, sich der Risiken bewusst zu werden, sie zu bewerten und gezielt zu adressieren. Dabei sollten Unternehmen zwischen Bedrohungen von innen und von außen differenzieren.

Wenn die KI halluziniert

Interne Risiken entstehen, wenn Mitarbeiter und Kunden mit den KI-Modellen interagieren. Zu den größten Problemen zählen Halluzinationen: Wenn die KI eine Frage nicht beantworten kann, fängt sie an zu fantasieren und generiert Output, der zwar plausibel klingt, aber irrelevant und sachlich falsch ist. Gerade im Arbeitskontext kann das sehr heikel sein und schränkt den wahrgenommenen Nutzen von LLMs ein. Anwender sollten den KI-generierten Content daher nie blind übernehmen, sondern alle Informationen sorgfältig prüfen. Sonst besteht die Gefahr, dass das Unternehmen falsche Entscheidungen trifft oder Reputationsverlust erleidet, weil fehlerhafte Inhalte nach außen kommuniziert werden.

Vorsicht vor Datenlecks und Toxizität

Das zweite große Risiko sind Datenlecks. LLMs werden mit riesigen Datenmengen trainiert, die im Falle von individuellen Implementierungen auch sensible Informationen und personen­bezogene Daten enthalten können. Viele Unternehmen nutzen heute die Möglichkeit zur Feinjustierung, indem sie vortrainierte LLMs um proprietäre Daten anreichern. Außerdem fließen auch Inhalte aus den Eingabe-Prompts in das Modell ein. Unternehmen sollten sich bewusst sein: Grundsätzlich kann die KI alles, was sie konsumiert, auch wieder ausgeben. Sowohl beim Input als auch beim Output besteht daher das Risiko für Compliance-Verstöße. Selbst Filter, die Datenlecks vermeiden sollen, lassen sich austricksen. So demonstrierten Forscher zum Beispiel, wie sie mit gezieltem Fine-Tuning von GPT-3.5 die Datenschutzkontrollen von OpenAI umgehen konnten.

Eng mit dem Problem der Datenlecks verbunden ist das Risiko für Toxizität. Wenn LLMs mit unausgewogenen Datensätzen trainiert oder durch entsprechenden Nutzer-Input beeinflusst werden, können sie verletzenden oder diskriminierenden Output generieren. Ein bekanntes Beispiel ist Microsofts Twitter-Chatbot Tay, den boshafte Anwender dazu gebracht hatten, beleidigende Tweets zu posten. Nach nur 24 Stunden musste Microsoft Tay wieder vom Markt nehmen und sich öffentlich entschuldigen. Während explizite Toxizität wie Schimpfwörter oder beleidigende Sprache leicht erkennbar ist, lässt sich implizite Toxizität, zum Beispiel Metaphern, Sarkasmus oder Umschreibungen, nur schwer herausfiltern.

Externe Risiken von LLMs

Neben Gefahren von innen sind LLMs auch Cyberbedrohungen von außen ausgesetzt. Was, wenn es Cyberkriminellen gelingt, auf Trainingsdaten zuzugreifen? Dann könnten sie nicht nur sensible Informationen stehlen, sondern auch Daten kompromittieren, um den Output der KI zu beeinflussen. Solche Angriffe passieren. Im Juni 2024 meldete zum Beispiel das KI-Unternehmen Hugging Face unautorisierten Zugriff auf seine Spaces-Plattform. Diese bietet Kunden die Möglichkeit, Anwendungen mit KI und Machine Learning (ML) zu erstellen, zu hosten und zu teilen. Eine Kompromittierung hat also weitreichende Folgen.

Trainingsdaten-Poisoning zählt laut OWASP (Open Worldwide Application Security Projekt) zu den drei beliebtesten Angriffstechniken gegen LLMs, neben unsicherem Output Handling und Prompt Injection. Unsicheres Output-Handling nutzt das Unvermögen der KI aus, gefährliche Antworten zu erkennen. Auf diese Weise können Cyberkriminelle zum Beispiel Cross-Site-Scripting- oder Cross-Site-Request-Forgery-Angriffe durchführen. Prompt Injection manipuliert das LLM durch bösartige Eingaben, sodass es zum Beispiel sensible Informationen preisgibt oder Schadcode ausführt.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Effektive Strategien, um externe Risiken zu mindern

Es gibt einige bewährte Best Practices, um die Angriffsfläche zu reduzieren. Unverzichtbar ist zum Beispiel ein kontinuierliches Monitoring aller IT-Systeme, die in der Entwicklungs- und Produktionsumgebung eingesetzt werden. Dabei sollten Unternehmen darauf achten, dass das SOC (Security Operations Center) über Erkennungsregeln für LLM-Angriffe verfügt. Elastic Security Labs hat ein solches Repository zum Beispiel auf der Entwicklerplattform GitHub veröffentlicht. Um Angriffe wie Prompt Injection- und unsicheres Output-Handling abzuwehren, empfiehlt sich die Implementierung von Mechanismen zur Eingabe-Validierung und -Bereinigung. Außerdem können Unternehmen das LLM mit Logdaten und historischen Chatverläufen so trainieren, dass es potenziell gefährliche Prompts erkennt.

Eine gute Methode, um ein sicheres LLM zu entwickeln, ist außerdem ein sogenanntes Generative Adversarial Network (GAN). In einem solchen Szenario treten zwei neuronale Netze gegeneinander an. Die eine KI nimmt die Rolle des Angreifers ein und versucht, Schwachstellen auszunutzen, Daten zu exfiltrieren oder zu kompromittieren. Die andere KI soll die Aktionen des Gegners aufdecken, Gegenmaßnahmen ergreifen und den Angriff eindämmen. GAN-Training ist eine effektive Möglichkeit, Schwachstellen in LLMs zu erkennen und die Modelle zu härten.

Interne Risiken adressieren mit Kontrollen, Trainings und RAG

Auch um interne Risiken zu mindern, sind kontinuierliches Monitoring sowie Input- und Output-Kontrollen wichtig. Unternehmen sollten prüfen, wie Mitarbeiter die LLM-Applikationen nutzen, und proaktiv das Bewusstsein für damit verbundene Risiken schärfen. Hier spielen Trainings und Workshops eine zentrale Rolle. Eine gute Datenhygiene und ein Rollen- und Rechtekonzept sorgen außerdem dafür, dass Anwender nur auf Daten zugreifen können, für die sie autorisiert sind. Solche Kontrollen lassen sich zum Beispiel mit einem RAG-Ansatz (Retrieval Augmented Generation) etablieren. Dieser trägt gleichzeitig dazu bei, das Risiko für Halluzinationen zu reduzieren.

RAG ist eine Technik, um das LLM mit Informationen aus privaten oder proprietären Datenquellen anzureichern, ohne es neu zu trainieren. Wenn der Nutzer eine Frage eingibt, durchsucht das Abrufmodell zunächst diese Datenquellen. Die ermittelten Informationen werden als Wissensvektoren in einer Vektordatenbank gespeichert. Daraus generiert das LLM anschließend eine Antwort. So können Unternehmen sicherstellen, dass der Output der KI auf geprüften, verlässlichen Informationen basiert, was die Qualität der Antworten steigert.

Fazit

Wie jede Innovation bei IT-Systemen birgt auch die Implementierung von LLMs Gefahren. Doch es gibt effektive Strategien, um sowohl interne als auch externe Risiken zu mindern. Viele Security-Experten glauben, dass Cyberkriminelle derzeit im Vorteil sind und die Branche noch aufholen muss. Doch dabei vergessen sie, dass beide Seiten Innovationen nutzen können. Noch lässt sich schwer vorhersehen, wie generative KI die Technologie-Landschaft verändern wird. In jedem Fall sind LLMs sehr leistungsfähige Werkzeuge mit einer steilen Lernkurve. Umso wichtiger ist es, diesen Fortschritt sicher und verantwortungsvoll zu gestalten.

Über den Autor: Thorben Jändling ist Principal Solution Architect EMEA und Sicherheitsexperte bei Elastic.

(ID:50300547)