Der Stil eines Entwicklers ist wie ein digitaler Fingerabdruck – einzigartig, aber schwer zu identifizieren. Mit OCEAN wurde ein KI-gestütztes Tool entwickelt, das Codefragmente analysiert und Urheber selbst in Maschinencode erkennen kann. Diese Technologie könnte die Rückverfolgung von Cyberangriffen revolutionieren und den Schutz kritischer Infrastrukturen stärken.
Mit der Entwicklung von OCEAN soll der Blick auf den Programmierstil als unverwechselbares Merkmal für die Cyberabwehr erweitert werden.
(Bild: tippapatt - stock.adobe.com)
Hinter jedem Programm verbergen sich charakteristische Muster, die bereits bei der Wahl der Variablennamen und der bevorzugten Programmierparadigmen ihren Ursprung haben. So setzen manche Entwickler auf iterative Lösungen mit Schleifen, während andere rekursive Ansätze bevorzugen. Diese individuellen Code-Strukturen spiegeln den persönlichen Code-Stil des Autors erkennbar wider. Bisher konnten diese Merkmale jedoch nur im Quellcode analysiert werden oder wenn der potentielle Autor zum Zeitpunkt des Trainings der KI bereits bekannt war. Diese Voraussetzungen treffen jedoch bei Schadsoftware nicht zu, da diese häufig ausschließlich als kompilierter Maschinencode vorliegt.
Mit Unterstützung der Agentur für Innovation in der Cybersicherheit GmbH (Cyberagentur) hat unser Team an der Universität zu Lübeck im Forschungsprojekt SOVEREIGN einen neuen Ansatz namens OCEAN (Open-World Contrastive Authorship Identification) entwickelt, der auch in stark optimiertem Maschinencode die Handschrift des Entwicklers erkennt. Das Verfahren operiert in einem „open world“-Szenario, das heißt, es kann auch dann Aussagen treffen, wenn der mutmaßliche Autor nicht in den Trainingsdaten enthalten ist.
Allerdings wurde der Ansatz bislang ausschließlich mit normalem, unverschleiertem Programmcode getestet. Da einige Schadprogramme gezielt mit Verschleierungstechniken geschützt werden, sollen diese Gegenmaßnahmen in zukünftigen Untersuchungen näher erforscht werden.
Neue Perspektiven in der Cyberabwehr
Die Fähigkeit, den Urheber von Schadsoftware anhand von Code-Stilmerkmalen zu identifizieren, eröffnet völlig neue Möglichkeiten in der IT-Sicherheit. Cyberkriminelle hinterlassen zwangsläufig individuelle stilistische Spuren, wenn sie Schadsoftware entwickeln. Mit OCEAN lassen sich Verbindungen zwischen scheinbar unabhängigen Angriffen herstellen und potenzielle Urheber ausfindig machen. Für Ermittlungsbehörden könnte diese Methode künftig als forensisches Werkzeug in Gerichtsverfahren dienen.
Im Rahmen des Forschungsprojektes SOVEREIGN, das sich dem Schutz kritischer Infrastrukturen widmet, spielt OCEAN auch für die Software-Lieferkette eine zentrale Rolle. Supply-Chain-Angriffe, bei denen Updates manipuliert werden, um Hintertüren einzuschleusen, stellen eine zunehmende Bedrohung dar. Häufig bleiben solche Manipulationen unbemerkt, da sich der eingeschleuste Code nahtlos in die bestehende Software einfügt.
Hier kommt die Technik von OCEAN ins Spiel: Durch den Vergleich des Code-Stils eines Updates mit dem vorherigen Zustand der Software können plötzlich auftretende, stilistisch abweichende Codeabschnitte erkannt werden. Dies ist ein möglicher Hinweis auf bösartige Eingriffe. In einer Fallstudie konnte das Forscherteam diesen Ansatz bereits erproben: Sie simulierten einen Angriff auf die Software-Lieferkette, indem bekannte Schadsoftware in ein Software-Update integriert wurde. Dabei konnten sie eine signifikante Abweichung in der Autorenschaft messen. Das bedeutet zwar nicht zwangsläufig, dass die Lieferkette bereits kompromittiert wurde, sollte jedoch als Weckruf verstanden werden. Entweder indem diesem Bereich in weiteren automatisierten Analysen mehr Aufmerksamkeit gewidmet wird oder direkt bei dem betroffenen Unternehmen nachgefragt wird, ob sich etwa das Entwicklerteam verändert hat.
Die Punktewolke zeigt, wie der KI-Ansatz OCEAN Code-Stile erkennt und Entwickler identifiziert. Jeder Punkt repräsentiert eine Code-Funktion, die einer bestimmten Person zugeordnet ist. Trotz Compiler-Optimierungen bleiben stilistische Eigenheiten erhalten, so dass sich die beiden Gruppen in der Regel deutlich unterscheiden und eine Unterscheidung zwischen den beiden Autoren möglich ist.
(Bild: Felix Mächtle)
Im Kern beruht OCEAN auf kontrastivem Lernen – einem Machine-Learning-Ansatz, der Programme paarweise vergleicht, um festzustellen, ob sie vom gleichen Autor stammen. Die gleiche Technik findet sich auch in der Gesichtserkennung von Smartphones, wo durch kontrastives Lernen erkannt wird, ob zwei Bilder von Gesichtern zum gleichen Menschen gehören.
Als Herzstück des Systems dient ein neuronales Netzwerk, das speziell für die Verarbeitung von Programmiersprachen optimiert ist. Ein großer Vorteil: OCEAN ist nicht auf den ursprünglichen Quellcode angewiesen, sondern arbeitet auch zuverlässig mit Maschinencode. Tests mit realen Open-Source-Programmen zeigten, dass das System eine Genauigkeit von 86 % erreicht – selbst bei hoher Compiler-Optimierung. Compiler-Optimierung bedeutet, dass der Compiler den Quellcode automatisch verändert, um etwa die Ausführungsgeschwindigkeit zu erhöhen. Dabei können jedoch auch charakteristische Stilmerkmale des ursprünglichen Codes modifiziert werden, was die Identifikation des individuellen Autorenstils zusätzlich erschwert.
Mit der Entwicklung von OCEAN wird der Blick auf den Programmierstil als unverwechselbares Merkmal für die Cyberabwehr erweitert. Während traditionelle Ansätze oft an die Grenzen der Quellcode-Analyse stießen, zeigt der neue Ansatz, dass auch Binärdateien wertvolle Informationen über den Urheber enthalten und das in einem realitätsnahen „open world“-Szenario.
Über die Rückverfolgung von Cyberangriffen hinaus eröffnet der Ansatz auch neue Möglichkeiten, grundlegende Fragen zur Herkunft und Zuordnung von Code zu klären. So könnte OCEAN künftig etwa dabei helfen, automatisch erzeugten Code von menschlichem Code zu unterscheiden. Dieser Aspekt ist insbesondere im Hinblick auf Haftungsfragen bei KI-gestützter Programmierung von Bedeutung.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Gleichzeitig wirft die Technologie aber auch kritische Fragestellungen auf. So könnte die Fähigkeit, individuelle Programmierstile zuzuordnen, etwa von Unternehmen oder staatlichen Stellen genutzt werden, um Entwickler gezielt zu überwachen. Der Schutz der Privatsphäre und die Wahrung der Anonymität in der digitalen Welt stehen somit ebenso im Fokus wie der Einsatz der Technik zur Verbesserung der IT-Sicherheit.
Bereits heute zeigt sich, dass die feinen Nuancen im Programmierstil so ausgeprägt sind, dass sie zuverlässig erkannt werden können. Damit sind Chancen, aber auch neue Herausforderungen verbunden. Die Zukunft der digitalen Forensik wird daher nicht nur von technologischen Fortschritten, sondern auch von einem verantwortungsvollen Umgang mit diesen neuen Möglichkeiten abhängen.
Die Herausforderungen durch Cyberkriminalität, Supply-Chain-Angriffe und den zunehmenden Einsatz von KI in der Softwareentwicklung nehmen stetig zu. Ob die maschinengestützte Autorenerkennung bald zum Standard in der IT-Sicherheit avanciert, bleibt abzuwarten – doch eines ist klar: Mit OCEAN rückt die digitale Spurensuche einen entscheidenden Schritt näher an die Realität.
Über den Autor: Felix Mächtle ist Forscher am Institut für IT-Sicherheit der Universität zu Lübeck im Bereich Maschinelles Lernen und Cybersecurity. Er ist Mitglied des KI-Forschungsnetzwerks AI Grid, einer Initiative, die den Austausch zwischen jungen Talenten und führenden KI-Experten fördert. Hier treibt Mächtle in der Mikro-Fokusgruppe für IT-Sicherheit und KI mit anderen Forschenden im AI Grid den Austausch über innovative Ansätze zum Schutz vor digitalen Bedrohungen voran.