KI-Modelle versprechen Effizienzgewinne – auch in der Malware-Analyse. Denn noch ist ein großer Teil davon teils mühevolle und langwierige Handarbeit. Doch ohne fachliche Einordnung und klare Vorgaben bleiben die Ergebnisse einer KI fehleranfällig und unzuverlässig.
G DATA testete die LLMs GPT‑5.1, GPT‑5.1‑mini, Claude Sonnet 4.6 zur Malware‑Analyse in einem Zwei‑VM‑Setup mit MCP-Tooling und stellte fest, dass die Sprachmodelle einen deutlichen Zeitgewinn bei Skripten, aber unzuverlässige Urteile lieferten.
Zu den zeitintensivsten Aufgaben im Security-Umfeld zählt die Analyse moderner Schadsoftware. Analysten untersuchen komplexe Binärdateien, rekonstruieren verschleierte Codeabschnitte und vollziehen das Verhalten von Malware in isolierten Analyseumgebungen nach. Eine vollständige Analyse nimmt bei mehrstufigen Loadern oder stark obfuskiertem Code viele Stunden oder sogar Tage in Anspruch. Daher liegt der Einsatz von LLMs nahe. Die Modelle können schnell große Mengen Dateien und Code verarbeiten, Zusammenhänge zwischen Funktionen aufzeigen und liefern Vorschläge für mögliche Interpretationen. Security-Teams können von einer massiven Beschleunigung bestimmter Analysephasen profitieren. Gleichzeitig wirft der Einsatz generativer KI in sicherheitskritischen Bereichen Fragen auf. Wie zuverlässig sind die Ergebnisse und welche Rolle sollten sie in der Analyse tatsächlich spielen?
Um die Probe aufs Exempel zu machen, wurde ein Set-up mit zwei VMs aufgesetzt. Eine mit Remnux und die andere mit Windows 10. Auf der Remnux-VM wurden Claude und OpenCode installiert und über verschiedene MCP-Server (Model Context Protocol) wie remnux, x64dbg oder ssh-mcp sicher mit externen Datenbanken und Werkzeugen verbunden.
Das SSH- und das x64dbg-MCP sind mit der Windows-10-VM gekoppelt. Diese VM ist – abgesehen von einem internen Netzwerkadapter – isoliert und kann schädlichen Code ausführen, während die KI Remnux für die statische Analyse nutzen soll. Die Remnux-VM benötigt eine Internetverbindung, damit die KI-Clients funktionieren.
Getestet wurden drei LLMs: OpenAI GPT-5.1, OpenAI GPT-5.1-mini und Claude Sonnet 4.6. Beispielhaft stellen wir hier zwei Versuche vor, der eigentliche Test beinhaltete jedoch wesentlich mehr.
Mit GPT-5.1-mini wurde ein Office-Dokument mit einem Equation-Editor-Exploit (CVE-201711882 / EUVD-2017-3478) untersucht. Die Ergebnisse waren enttäuschend: bei komplexeren Aufgaben zog das Modell mehrfach falsche Schlussfolgerungen und lieferte letztlich keine brauchbaren Informationen. Außerdem kam GPT-5.1-mini zu dem Schluss, das Sample sei unbedenklich, da es keine Makros enthalte. Allerdings sei die Domain decalage.info sehr verdächtig. Hierbei handelt es sich aber um die legitime Website von oletools – einer Suite von Python-Tools zur Analyse von MS-Office-Dateiformaten. Die KI war nicht in der Lage, den Standard-Text der oletools von den Analyseergebnissen zu unterscheiden.
Insgesamt war die Analyse-Qualität von GPT-5.1-mini so schlecht, dass nur noch GPT 5.1 für weitere Tests zum Einsatz kam. GPT 5.1 stellte zwar fest, dass es sich um ein ungewöhnliches Sample handelt, konnte jedoch keinen eindeutigen Nachweis für bösartiges Verhalten erkennen. Erst mit der expliziten Aufforderung, den Equation-Editor-Exploit zu suchen, fand es erfolgreich den Shellcode, der die nächste Stufe lädt, emulierte diesen mit Mandiants Speakeasy und gab die URL aus.
Sonnet 4.6 erkannte automatisch, dass es sich um einen Equation-Editor-Exploit handelt, lieferte ein korrektes Urteil und identifizierte die Position des Shellcodes. Allerdings konnte es die URL der nächsten Stufe nicht eigenständig extrahieren. Sonnet durchsuchte alle extrahierten Dateien mithilfe von Regulären Ausdrücken nach URL-Mustern, fand jedoch nichts, da die URL vom Shellcode zur Laufzeit zusammengebaut wird.
Anschließend wurden die LLMs mit einem deutlich schwierigeren Sample konfrontiert. Für dessen Analyse benötigt ein Mensch mehrere Stunden „Handarbeit“, um die Funktionsweise zu verstehen und ein statisches Entschlüsselungsskript zu erstellen, das generisch für ähnliche Samples funktioniert. Das Ziel für die KI war dasselbe: erkennen, wie sich die Dateien extrahieren und entschlüsseln lassen und anschließend ein Python-Entschlüsselungsskript schreiben. Das Ergebnis war beeindruckend. Sowohl GPT 5.1 als auch Sonnet 4.6 hatten Erfolg: Statt mehrerer Stunden dauerte es jedoch nur etwa 30 Minuten, um ein samplespezifisches Python-Skript zu erstellen. Dieses Skript musste noch in einer weiteren halben Stunde Arbeit manuell angepasst werden, um generisch zu funktionieren. Trotzdem ist der Zeitgewinn eine klare Verbesserung.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Da in Vergleichstests Sonnet 4.6 günstiger, aber qualitativ gleichwertig war, bildete das Modell gemeinsam mit Opus die Basis für den Feinschliff des Prozesses. Oberste Priorität war dabei, faktisch korrekte und leicht überprüfbare Berichte zu erstellen. Dafür wurden sogenannte Skills eingesetzt. Das sind ausgelagerte Anweisungen an die KI, welche nur in deren Kontext geladen werden, wenn bestimmte Schlüsselwörter fallen. Im ersten Schritt entstand ein „Erstelle-einen-Report-Skill“, der nicht nur die finalen Analyseergebnisse auflistet, sondern die LLMs anweist, jeden einzelnen Schritt darzustellen, den ein Analyst zur Verifikation durchführen müsste. Darüber hinaus wurde ein „Verifikations-Skill“ für kritische Daten wie IP-Adressen, Hashes, Dateinamen, Pfade, Registry-Keys, Offsets, Zeilennummern und ähnliche Informationen ergänzt.
1. Man kann Berichten nicht trauen Von LLMs erstellte Analyseberichte sind grundsätzlich nicht vertrauenswürdig. Selbst mit fünf Verifikationsdurchläufen gibt es häufig Fehler an zentralen Stellen des Berichts, darunter bei IoCs, bei den Beziehungen zwischen Dateien sowie bei Persistenz-Mechanismen und deren Speicherorten. Deswegen ist eine manuelle Verifikation der Daten weiterhin erforderlich und wird mithilfe der vom LLM erstellten Verifikationsschritte einfacher als eine vollständige manuelle Analyse.
2. Urteile sind nicht belastbar Aussagen, ob ein Sample schädlich oder harmlos ist, sind am problematischsten. LLMs beurteilen die Funde häufig falsch und entscheiden sich auch ebenso schnell um. Der Grund: Sie treffen Entscheidungen basierend auf falschen Annahmen und ziehen vorschnell Schlussfolgerungen. Es ist ein erfahrener Analyst erforderlich, der gezielte Rückfragen stellt, erkennt, wo Fehlbewertungen entstehen und die LLMs in die richtige Richtung lenkt. Zum jetzigen Zeitpunkt ist die Urteilsfindung von LLMs nicht vertrauenswürdig.
3. Tooling ist entscheidend Die Qualität und Geschwindigkeit der Analyse hängt von den Werkzeugen ab, die das Modell nutzt. Gleichzeitig braucht es klare Vorgaben, wann und wie diese einzusetzen sind. Mit der Zeit ergibt es daher Sinn, spezifische Skills für bestimmte Sample-Typen zu erstellen, zum Beispiel einen dedizierten Skill für die JavaScript-Analyse, der geeignete Werkzeuge empfiehlt. Andernfalls verbraucht das LLM unnötig viele Tokens, weil es per Trial-and-Error erst herausfinden muss, welches Tooling für das jeweilige Sample funktioniert.
4. LLMs können mehr Dinge in kürzerer Zeit abdecken LLMs können komplexe Programme und Setups in relativ kurzer Zeit detailliert untersuchen. Sie sind deutlich schneller und finden daher interessante Bereiche, Indikatoren und Dateien, die menschliche Analysten möglicherweise übersehen würden, weil sie sich nicht manuell Tausende von Dateien ansehen können.
5. LLMs verfügen über ein breiteres Wissensspektrum Jeder Reverse Engineer hat seine Spezialgebiete, in denen er besonders gut ist und über viel Fachwissen verfügt. Daher arbeiten Malware-Analysten häufig in Teams, um das jeweilige Spezialwissen aller Beteiligten zu nutzen. LLMs hingegen verfügen auch in den Bereichen über Wissen, die einer Einzelperson selbst weniger vertraut sind. Gerade wenn man Malware ohne Team analysiert, ist dieser zusätzliche Kontext eine große Hilfe. Er macht den Bericht besser und ganz nebenbei kann man selbst noch was lernen.
6. Skripte statt Berichte Der große Vorteil von Skripten ist, dass LLMs hier eine Feedback-Schleife haben, die unmittelbar zeigt, ob das Skript funktioniert oder nicht. Diese Art von Rückmeldung gibt es für die meisten anderen Teile eines Berichts in dieser Form nicht. Die Feedback-Schleife erlaubt es dem LLM, sich selbst zu korrigieren, bis ein ausführbares Skript mit den erwarteten Ergebnissen vorliegt.
Indem man das LLM anweist, einen Konfigurations-Extractor, einen statischen Entpacker oder ein Deobfuskationsskript zu erstellen, lässt sich viel Zeit bei der Validierung der Berichtsdaten sparen. Ob ein Skript „schummelt“, indem es beispielsweise nur hartkodierte Ergebnisse ausgibt, kann ein Analyst durch Lesen des Skripts schnell feststellen. Danach führt man es auf dem Sample aus – und ist fertig. Ein Entpacker-Skript verifiziert beispielsweise nicht nur, welche Payload entpackt wird und in welchem Verhältnis die beiden Stufen zueinanderstehen, sondern auch, wo und wie die verschlüsselte Payload gespeichert ist und welche Algorithmen zur Entschlüsselung erforderlich sind.
Es ist erkennbar, dass autonome LLM-Analysen ein nützliches Werkzeug sind, das Analysezeiten erheblich reduziert. LLMs entscheiden selbstständig, welcher Schritt als nächster Sinn macht. Wenn man sie richtig einsetzt, können Malware Analysten ihre Effizienz steigern, ohne dabei Qualität einzubüßen.
Gleichzeitig zeigt die Praxis, dass KI-Modelle ohne fachliche Steuerung keine verlässlichen Ergebnisse liefern. Fehlinterpretationen und Halluzinationen bleiben ein strukturelles Problem generativer KI. Der größte Nutzen entsteht zurzeit in hybriden Analyseprozessen.
Über den Autor: Karsten Hahn ist Principal Malware Researcher bei G DATA CyberDefense.