GenAI-Sicherheit KI-Risiken reduzieren leicht gemacht

Ein Gastbeitrag von Emily Gorcenski 5 min Lesedauer

Anbieter zum Thema

Desinformation, Datendiebstahl und unsicher generierter Code sind einige der negativen Nebeneffekte rund um generative KI (GenAI). Welche Sicherheitslücken begünstigen diese Risiken und wie können Unternehmen diese minimieren?

Für den sicheren Einsatz von GenAI zu sorgen, ist eine herausfordernde Aufgabe. Deshalb brauchen Unternehmen unbedingt eindeutige Regeln für den Umgang mit GenAI.(Bild:  phonlamaiphoto - stock.adobe.com)
Für den sicheren Einsatz von GenAI zu sorgen, ist eine herausfordernde Aufgabe. Deshalb brauchen Unternehmen unbedingt eindeutige Regeln für den Umgang mit GenAI.
(Bild: phonlamaiphoto - stock.adobe.com)

Large Language Models (LLMs) sowie die darauf basierenden Anwendungen erfreuen sich als Helfer im Alltag zunehmender Beliebtheit – sowohl im privaten als auch im beruflichen Kontext. Das stellt allerdings die IT-Sicherheit insbesondere im Hinblick auf zwei neue Risiken vor Herausforderungen. Zum einen sind das Informationslecks, die sich in drei Arten kategorisieren lassen: öffentliche Daten, Prompt-Veröffentlichungen und Veröffentlichung personenbezogener Daten. Zum anderen geraten KI-generierte Schwachstellen in den Fokus.

1. Öffentliche Daten

LLMs beziehen ihre Daten aus umfangreichen Datensätzen, die nahezu ausschließlich aus öffentlich zugänglichen Quellen im Internet stammen. Mithilfe von Website-Scraping greifen sie auf Informationen aus Blogbeiträgen, Unternehmenswebsites, Handbüchern und Forenbeiträge zu, bis hin zu Nachrichtenartikeln und Enzyklopädien. Mitunter stammen diese Inhalte allerdings tief aus Website-Archiven, aus fragwürdigen Quellen oder sogar von mittlerweile offline genommenen Seiten. Wie und welche Quellen LLMs bei ihren Antworten gewichten, bleibt unklar. So greift auch bei LLMs der Grundsatz: „Junk in, Junk out“. Ist das neuronale Netzwerk mit schlechten Daten trainiert, gibt es auch schlechte Ergebnisse aus.

Dass Website-Scraper ihre Informationen abgreifen, ist vielen Unternehmen schon seit Jahren bekannt. Allerdings docken Scraping-Tools nun auch an LLMs an und schaffen damit gänzlich neue Möglichkeiten und Risiken. Das verändert nun auch, wie Unternehmen darüber entscheiden, welche Informationen sie online veröffentlichen und welche nicht.

2. Prompt-Veröffentlichung

Ein weiteres Sicherheitsrisiko entsteht durch die Art, wie LLMs ihre Ausgabequalität verbessern sollen. Sie können aus jeder Anfrage lernen, sodass unbedachte Prompts mit sensiblen Daten jederzeit im Dialog mit Dritten auftreten können. So können sie etwa vorab Informationen zu noch unveröffentlichten Produkten oder Strategien leaken. Vertrauliche Informationen können sich auch hinter Software-Code, Datenmodellen oder Anforderungen verbergen. Diese bieten etwa Cyberkriminellen wertvolle Informationsquellen dar.

3. Veröffentlichung persönlicher Daten

Was für sensible Unternehmensdaten zutrifft, gilt auch für personenbezogene Daten. Kürzlich kam es bei OpenAI zu einer Datenpanne, bei der Benutzer:innen teilweise die Interaktionsverläufe anderer Personen einsehen konnten. Sollten dabei sensible personenbezogene Daten sichtbar gewesen sein, wäre das ein grober Verstoß gegen die Datenschutzverordnung. Deshalb gilt auch hier: Wer sich E-Mails an Kunden von ChatGPT formulieren lässt, sollte im Prompt persönliche Daten außen vorlassen.

KI-generierte Schwachstellen: Die Lücke im System

Die zweite Gruppe von GenAI-Risiken bilden Schwachstellen, die sich beim KI-gestützten Coden einschleichen können. Da LLMs aus jedem Coding-Muster in ihrer Datenbank lernen, steigt die Wahrscheinlichkeit von fehlerhaftem Code. Denn diese Lerndaten können falsch, ineffizient, veraltet oder unsicher sein. Außerdem überprüfen LLMs den vorliegenden Code nicht auf Best Practice Standards und Sicherheitslücken. Die Verantwortung liegt somit bei den Entwickler:innen. Ein zusätzliches Risiko besteht, wenn automatisierte Tools nicht aufmerksam genug verwendet werden. Um dem entgegenzuwirken, hilft eine umsichtige Implementierung und klare Richtlinien in Unternehmen.

Gegenmaßnahmen

Mit welchen Maßnahmen können Unternehmen diesen Risiken nun begegnen? Neben einer erhöhten Vorsicht beim Prompten und der Überprüfung von KI-basiertem Code sollten sie auch folgende Möglichkeiten in Betracht ziehen:

„Closed API“-Modelle

Informationslecks lassen sich auch mithilfe von „Closed API“-Modellen vermeiden. Diese Modelle verwenden den Input nicht zur eigenen Weiterentwicklung, versprechen zumindest die Provider. Um die Compliance mit dem regulatorischen Rahmenwerk zu erfüllen, garantieren alle drei großen Cloud-Provider eine Datenverarbeitung in der jeweiligen Region. Ob sie dieses Versprechen tatsächlich einhalten, ist allerdings neutral kaum zu überprüfen.

Eine alternative Lösung kann Unternehmen weniger abhängig von Dritten machen. Sie können den direkten Zugang zu der API sperren und einen intern gehosteten Service als Fassade einrichten. So entsteht mehr Transparenz über die tatsächliche Nutzung des Tools und personenbezogene Daten können entfernt oder eine missbräuchliche Verwendung von Daten gemeldet werden. Die Sicherheit der API-Fassade erfordert eine angemessene Überwachung sowie einen Cloud-Single-Sign-On, mit dem sich Nutzer:innen authentifizieren. Die API-Fassade hat jedoch den Nachteil, dass das Modell nicht gezielt anhand des Inputs lernen kann. Die mögliche Weiterentwicklung der GenAI-Ergebnisse können Unternehmen daher nicht in ihrem eigenen Sinne steuern.

Hauseigene KI-Modelle

Eine weitere Option ist die Eigenentwicklung von LLMs oder GenAI-Lösungen. Mittlerweile existieren kleinere Modelle, die deutlich erschwinglicher sind als Modelle mit dem Ausmaß von GPT. Metas LLaMA und Alpaca AI von der Universität Stanford erfordern für das Training etwa nur Cloud-Kosten in Höhe von 600 US-Dollar. Einige Lösungen sind sogar so klein, dass man sie auf einem MacBook trainieren kann. Ein weiterer Vorteil von lokal gehosteten Modellen: Sie sind an die eigene Wissensbasis anpassbar und können dadurch langfristig besser funktionieren als öffentliche Modelle, und das bei verringertem Risiko von Datenabflüssen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Weichenstellung in der Software-Entwicklung

Robuste Review-Prozesse reduzieren Schwachstellen im eigenen Code. Deshalb sind wir bei Thoughtworks von Pair-Programming überzeugt – denn: Die Dynamik zweier Personen in der Ende-zu-Ende-Entwicklung ist entscheidend für hochqualitativen Code. Dieser Fakt greift vor allem bei der Prüfung von KI-generiertem Code. Dieser ist vor allem dann besonders effektiv, wenn die Erwartungen an ein gutes Ergebnis klar sind. So können Entwickler:innen den von der KI vorgeschlagenen Code schnell und effektiv anpassen.

Hingegen profitieren unerfahrene oder leistungsschwache Teams im Zweifel gar nicht von KI beim Coden – im schlimmsten Fall richtet der Einsatz mehr Schaden an als er Nutzen stiftet. Ein:e Engineering Manager:in trägt daher die Verantwortung, dass Praktiken wie Continuous Integration / Continuous Delivery Anwendung finden. Sie sind eine der wirksamsten Lösungen, um Sicherheitslücken durch KI-generierten Code so klein wie möglich zu halten. Diese Maßnahme ist ein sinnvoller Startpunkt für die KI-Transformation in einem Unternehmen.

Den eigenen Weg finden

Für den sicheren Einsatz von GenAI zu sorgen, ist eine herausfordernde Aufgabe. Deshalb brauchen Unternehmen eindeutige Regeln für den Umgang mit GenAI. Diese sollten sowohl Vorsichtsmaßnahmen beinhalten als auch grundlegende Entscheidungen über die Eigenentwicklung oder Nutzung externer KI-Modelle. Es gibt nicht die eine Lösung, die allen Ansprüchen gerecht wird. Deshalb müssen Unternehmen Prioritäten setzen und eine eigene KI-Strategie entwickeln und implementieren, die das volle Potenzial von GenAI ausschöpft – und das bei möglichst sicherer Nutzung.

Über die Autorin: Emily Gorcenski ist Principal Data Scientist bei Thoughtworks Deutschland. Sie hat einen Hintergrund in Research Engineering sowie Angewandte und Computermathematik. Sie arbeitet als Software Developer und gestaltet datengetriebene Anwendungen. Sie ist eine starke Verfechterin des Datenjournalismus und hat mit ihrer Forschung und Expertise zu mehreren preisgekrönten Projekten beigetragen.

(ID:49930659)