Neue Serie: KI in der IT-Sicherheit So funktionieren Large Language Models (LLMs)

Von Dr. Goetz Guettich 7 min Lesedauer

In den nächsten Monaten werden wir uns in mehreren Artikeln mit verschiedenen Aspekten der Einsatzmöglichkeiten und der Bedeutung von Künstlicher Intelligenz (KI) in der IT-Sicherheit auseinandersetzen. Beim ersten Beitrag der Serie, der hier vorliegt, geht es allerdings nicht primär um Security, sondern wir befassen uns mit der Frage, wie es zu den heute verwendeten Large Language Models (LLMs) kam und wie sie funktionieren.

Was ist eigentlich „KI“ und wie funktioniert ein Large Language Model (LLM)? Im ersten Teil unserer neue Serie „KI in der IT-Sicherheit“ tauchen wir zum besseren Verständnis der Technologie erst einmal in die Grundlagen ein.(Bild:  sdecoret - stock.adobe.com)
Was ist eigentlich „KI“ und wie funktioniert ein Large Language Model (LLM)? Im ersten Teil unserer neue Serie „KI in der IT-Sicherheit“ tauchen wir zum besseren Verständnis der Technologie erst einmal in die Grundlagen ein.
(Bild: sdecoret - stock.adobe.com)

Um die Funktionsweise von LLMs zu verstehen, muss man zunächst einmal wissen, dass diese nichts mit Intelligenz zu tun haben, sondern eher mit Big Data beziehungsweise statistischen Auswertungen. LLMs gehen von einer bestimmten Eingabe aus, wie beispielsweise dem Text “die Katze” und berechnen dann anhand ihres Trainings und ihrer Datenbasis eine Wahrscheinlichkeit dafür, wie der Satz oder das Dokument weitergehen könnte. So wäre es beispielsweise denkbar, dass als nächstes Worte wie “miaut”, “frisst” oder “ist krank” folgen. Eher unwahrscheinlich sind als nächste Worte “Baukran”, “Schiff” oder “dichtet”. Handelt es sich um ein LLM, das im Veterinärbereich zum Einsatz kommt, so besteht die Vermutung, dass es aufgrund seines Trainings eher von einem Begriff wie “ist krank” ausgeht als von “frisst”. Dieses Beispiel ist natürlich stark vereinfacht und unvollständig, gibt aber einen ersten Überblick, den man im Hinterkopf behalten kann.

Die Evolution der LLMs

Bevor LLMs auf den Markt kamen, gab es schon einige Zeit lang Language Models (LMs). Diese arbeiten mit Wahrscheinlichkeitsanalysen wie Markov-Modellen und N-Grams und verwenden in ihrer einfachsten Form ein Wort (das jeweils letzte vorhergehende), um ein Folgewort vorherzusagen. Das lässt sich relativ einfach realisieren und setzt auch keine große Rechenleistung voraus, ist aber ungenau und oftmals nicht sehr hilfreich. Die genannten LMs lassen sich dadurch verbessern, dass sie in der Eingabe mehrere Wörter berücksichtigen, also statt einem Wort zwei oder drei der Vorhergehenden, sie werden aber nie die Beziehungen aller Wörter untereinander erkennen und können so auch keine ganzen Sätze verstehen. In der Praxis haben uns solche LMs schon bei Autokorrekturfunktionen und in der Spracherkennung unterstützt beziehungsweise gequält.

Mehr Leistung bringen Modelle, die auf Neuronalen Netzen aufsetzen. Diese erkennen auch Abhängigkeiten zwischen Wörtern, die sich im Text weit voneinander entfernt befinden. Hierbei sind beispielsweise Rekurrente Neuronale Netze (RNN) und Long-Short-Term-Memory-Networks (LSTM) erwähnenswert. RNNs erfassen und behalten Eingaben aus der Vergangenheit, was sie in die Lage versetzt, bessere Wortketten zu bilden. LSTM verfügen über eine Art Langzeitgedächtnis und Funktionen, die ihnen dabei helfen, zu entscheiden, was sie vergessen sollen, und was nicht. Auf diese Weise können sie sich an wichtige Informationen auch nach längerer Zeit erinnern und demzufolge auch Abhängigkeiten in Eingaben erkennen, die sich weit voneinander entfernt befinden.

Trotzdem haben die genannten Technologien Beschränkungen. Sie bearbeiten eine Eingabe immer sequenziell nach einer anderen, was für eine langsame Geschwindigkeit beim Training und beim Abarbeiten der Eingaben sorgt. Außerdem sind die Vorhersagen auf bestimmte Längen beschränkt und die Netze haben bei extrem langen Eingaben Probleme.

Je größer die Zahl der Wörter ist, die in die Analyse einbezogen werden, desto mehr Rechenleistung muss auch zur Verfügung stehen. Allerdings muss ein System ganze Sätze oder besser noch ganze Dokumente verstehen können, um zu guten Ergebnissen zu kommen. So existieren beispielsweise Wörter, die mehrere Bedeutungen haben, wie der Begriff “Bank”. Hier ergibt sich nur aus dem Kontext, ob es sich um eine Sitzgelegenheit oder ein Geldinstitut handelt. Um in diesem Zusammenhang zu vernünftigen Ergebnissen zu kommen, reicht es in der Regel nicht aus, einzelne Sätze zu verstehen.

Die Transformer-Technologie

Vereinfachte grafische Darstellung der Funktionsweise eines Transformers.(Bild:  Dr. Götz Güttich)
Vereinfachte grafische Darstellung der Funktionsweise eines Transformers.
(Bild: Dr. Götz Güttich)

Der nächste Schritt der Evolution ist die Transformer-Technologie. Diese sorgt dafür, dass das zugrundeliegende System alle Beziehungen zwischen allen im Text enthaltenen Worten erkennen kann und zudem auch dazu in der Lage ist, wichtige von unwichtigen Wörtern zu unterscheiden. Auf diese Weise lernt das System die Relevanz aller Wörter im Input, was dem Algorithmus die Möglichkeit gibt, Informationen richtig einzuschätzen und ihre Bedeutung in Relation zu anderen Informationen zu erkennen.

Transformer wurden ursprünglich für die automatische Sprachübersetzung entwickelt, erwiesen sich aber in der Praxis als flexibler als vorhergesehen und kommen jetzt in praktisch allen Anwendungen zum Einsatz, die mit Natural Language Processing (NLP) zu tun haben. Dazu gehören neben Tools wie ChatGPT (Chat Generative Pretrained Transformer) beispielsweise Microsoft Copilot, Analysen chemischer Strukturen und Bildgeneratoren wie DALL-E.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Transformer haben nicht nur den Vorteil, dass sie ein besseres Textverständnis mitbringen als die vorhergehenden Lösungen, sie lassen sich auch schneller und effizienter trainieren und skalieren besser, da sie in der Lage sind, Informationen parallel zu verarbeiten. Wie aber funktionieren sie üblicherweise?

Das Training

Überforderte KI-Lösungen liefern keine brauchbaren Ergebnisse. Dieses Bild hat DALL-E nach der Eingabe des Prompts „Erstelle mir eine grafische Darstellung der Funktionsweise eines Transformers mit Encoder und Decoder“ ausgegeben. DALL-E ist allerdings auch ein Bildgenerator und kein Tool zum Erzeugen von Diagrammen.(Bild:  Dieses Bild wurde mit Hilfe von DALL-E 2 erstellt.)
Überforderte KI-Lösungen liefern keine brauchbaren Ergebnisse. Dieses Bild hat DALL-E nach der Eingabe des Prompts „Erstelle mir eine grafische Darstellung der Funktionsweise eines Transformers mit Encoder und Decoder“ ausgegeben. DALL-E ist allerdings auch ein Bildgenerator und kein Tool zum Erzeugen von Diagrammen.
(Bild: Dieses Bild wurde mit Hilfe von DALL-E 2 erstellt.)

Gehen wir an dieser Stelle zunächst einmal auf das Training ein, das die Funktionalität des Transformers erst möglich macht. Hierbei erhält er genug Informationen, um die menschliche Sprache – oder auch andere komplexe Dateneingaben – zu erkennen und zu interpretieren. Wenn ein Transformer trainiert wird, so findet dieser Vorgang typischerweise in zwei unterschiedlichen Phasen statt. In der ersten Phase muss das System eine große Zahl an Daten verarbeiten. Dabei erlernt es die Sprachstruktur beziehungsweise die Grundlagen des Anwendungsbereichs, in dem es tätig werden soll, wie etwa der chemischen Analyse. So findet es die Relationen zwischen den einzelnen Elementen heraus und stellt fest, wie diese sich jeweils beeinflussen. Da hier, wie bereits angesprochen, sehr viele Daten zu verarbeiten sind, ist dieser Prozess sehr kostenintensiv und bringt auch einen hohen Energieverbrauch mit sich.

Die zweite Phase nennt sich „Feinabstimmung“. Hierbei bringen die zuständigen Mitarbeiter das LLM dazu, genaues Fachwissen für seinen Tätigkeitsbereich zu erlernen und einzusetzen. Ein Beispiel wäre eine Entwicklungsabteilung, die ihrer KI vermittelt, wie die im Unternehmen vorhandene Code-Basis aufgebaut wurde, oder eben die IT-Security, die der KI ihre Arbeitsgrundlagen beibringt. Man nimmt also ein bereits mit großem Aufwand trainiertes vorhandenes LLM und erweitert dessen Wissen um spezifische Punkte. Dieser Vorgang ist mit deutlich weniger Aufwand verbunden, als Phase eins, weswegen es Sinn ergibt, LLMs erst allgemein zu trainieren und dann als Ausgangsbasis zu nehmen, um sie an die jeweiligen unterschiedlichen Anforderungen anzupassen. In diesem Fall muss man nicht jedes Mal von Anfang an starten. Die Phase zwei gilt als optional und kann bei LLMs mit allgemeinen Aufgabengebieten entfallen.

Beim Training der Systeme kommen – wie angesprochen – sehr große Datenmengen zum Einsatz. Man beobachtet hier, dass diese Modelle nach einer gewissen Eingabemenge dazu in der Lage sind, auch Dinge zu tun, für die sie nicht trainiert wurden. Das liegt an der genannten Datenbasis. So kann beispielsweise ein Modell, das zum Übersetzen gedacht ist, nach gewisser Zeit auch Prosa schreiben, da es ja im Training eine sehr umfassende Sprachkenntnisse mitbekommt.

Die Arbeit im laufenden Betrieb

Typische Transformer bestehen aus zwei Teilen, dem Encoder und dem Decoder. Es gibt für spezielle Anwendungsbereiche allerdings auch Encoder- und Decoder-only-Modelle, auf die wir in diesem Text nicht weiter eingehen.

Da es sich bei den Transformern – wie eingangs erwähnt – um große statistische Rechensysteme handelt, arbeiten sie mit Zahlen, nicht mit Buchstaben und Worten. Deswegen ist es im ersten Schritt erforderlich, die Eingangsdaten, wie beispielsweise den Prompt “Schreibe mir einen Artikel über Bachblütentee” in ein Format zu bringen, mit dem die Systeme etwas anfangen können. Dazu werden die Worte vor der Eingabe in Token umgewandelt. Diese Token repräsentieren jeweils die Position des betroffenen Wortes in einem Wörterbuch, das alle möglichen Wörter umfasst. Bei Bedarf besteht auch die Option, anstelle der Wörter Silben oder Ähnliches als Ausgangsmaterial zu verwenden.

Nach der Tokenisierung landen die Informationen im “Embedding Space”. In diesem wird jedes Token als Vektor repräsentiert und belegt einen bestimmten Ort. Ähnliche Vektoren liegen nah beieinander, unähnliche sind weiter voneinander entfernt. Sie machen also die Beziehungen zwischen den Worten sichtbar.

Im Encoder analysiert das System die Beziehungen der Token in der Eingabe. Dieser Vorgang läuft nicht nur einmal ab, sondern mehrmals – teilweise bis zu 100 Mal – parallel (das nennt sich Multi Headed Self Attention). Auf diese Weise ist das System dazu in der Lage, verschiedene Aspekte der Beziehungen zwischen den Wörtern zu erkennen. Diese Aspekte werden nicht im Vorfeld festgelegt, sondern ergeben sich zufällig, so dass bei genügend Durchläufen viele unterschiedliche Aspekte Berücksichtigung finden.

Wenn die Daten den Encoder verlassen, stellen sie eine Repräsentation der Bedeutung und der Struktur das Eingabesatzes dar. Der Encoder verwandelt den Eingabetext folglich in eine für das Modell darstellbare Form. Die Daten werden nun in den Decoder eingespeist und beeinflussen dort die Self-Attention-Mechaniken. Der Decoder macht dann seine Voraussage in Bezug auf den auszugebenden Text. Danach erscheint das erste Token im Output und wird nun wieder in den Input des Decoders eingespeist, was die Erzeugung des nächsten Tokens anstößt. Es existieren dabei verschiedene Optionen, die beeinflussen, wie die Vorhersage des nächsten Tokens abläuft. Diese Optionen legen etwa fest, wie kreativ ein Text wird. Je größer die Kreativität ist, desto stärker nimmt aber auch die Wahrscheinlichkeit zu, dass am Schluss Unsinn herauskommt.

Der Decoder erzeugt nun in einer Schleife Token, bis das System ein “End-of-Sequence”-Token vorhersagt. Zum Schluss werden die Token in Worte umgewandelt und der Output erscheint.

Fazit

Alle LLMs sind immer nur so gut, wie die Daten, die bei ihrem Training zur Verfügung standen. Stimmen die Eingaben nicht, so enthalten auch die Ausgaben Unwahrheiten. Abgesehen davon kann es auch sein, dass Zusammenhänge falsch erkannt oder angelegt werden, in so einem Fall „halluziniert“ das System und gibt Daten aus, bei denen sich im Zweifelsfall nicht nachvollziehen lässt, wie sie zustande kamen.

Zudem gibt es auch die Möglichkeit, dass die Programmierer ihr LLM bewusst so trainieren, dass es falsche oder gefährliche Informationen von sich gibt. Das könnte beispielsweise Sinn ergeben, wenn jemand über ein LLM Waffenbauanleitungen oder unethische Inhalte verbreiten möchte. Generell gilt: Man weiß in der Praxis nie, was ein LLM wirklich tun wird, deswegen spielt es eine wichtige Rolle, diese Lösungen zu kontrollieren und ihr Verhalten zu untersuchen.

(ID:49983556)