Digitale Spuren im Code So entlarvt KI Cyberkriminelle über ihren Programmierstil

Ein Gastbeitrag von Felix Mächtle 4 min Lesedauer

Anbieter zum Thema

Der Stil eines Entwicklers ist wie ein digitaler Fingerabdruck – einzigartig, aber schwer zu identifizieren. Mit OCEAN wurde ein KI-gestütztes Tool entwickelt, das Codefragmente analysiert und Urheber selbst in Maschinencode erkennen kann. Diese Technologie könnte die Rückverfolgung von Cyberangriffen revolutionieren und den Schutz kritischer Infrastrukturen stärken.

Mit der Entwicklung von OCEAN soll der Blick auf den Programmierstil als unverwechselbares Merkmal für die Cyberabwehr erweitert werden.(Bild:  tippapatt - stock.adobe.com)
Mit der Entwicklung von OCEAN soll der Blick auf den Programmierstil als unverwechselbares Merkmal für die Cyberabwehr erweitert werden.
(Bild: tippapatt - stock.adobe.com)

Hinter jedem Programm verbergen sich charakteristische Muster, die bereits bei der Wahl der Variablennamen und der bevorzugten Programmierparadigmen ihren Ursprung haben. So setzen manche Entwickler auf iterative Lösungen mit Schleifen, während andere rekursive Ansätze bevorzugen. Diese individuellen Code-Strukturen spiegeln den persönlichen Code-Stil des Autors erkennbar wider. Bisher konnten diese Merkmale jedoch nur im Quellcode analysiert werden oder wenn der potentielle Autor zum Zeitpunkt des Trainings der KI bereits bekannt war. Diese Voraussetzungen treffen jedoch bei Schadsoftware nicht zu, da diese häufig ausschließlich als kompilierter Maschinencode vorliegt.

Mit Unterstützung der Agentur für Innovation in der Cybersicherheit GmbH (Cyberagentur) hat unser Team an der Universität zu Lübeck im Forschungsprojekt SOVEREIGN einen neuen Ansatz namens OCEAN (Open-World Contrastive Authorship Identification) entwickelt, der auch in stark optimiertem Maschinencode die Handschrift des Entwicklers erkennt. Das Verfahren operiert in einem „open world“-Szenario, das heißt, es kann auch dann Aussagen treffen, wenn der mutmaßliche Autor nicht in den Trainingsdaten enthalten ist.

Allerdings wurde der Ansatz bislang ausschließlich mit normalem, unverschleiertem Programmcode getestet. Da einige Schadprogramme gezielt mit Verschleierungs­techniken geschützt werden, sollen diese Gegenmaßnahmen in zukünftigen Untersuchungen näher erforscht werden.

Neue Perspektiven in der Cyberabwehr

Die Fähigkeit, den Urheber von Schadsoftware anhand von Code-Stilmerkmalen zu identifizieren, eröffnet völlig neue Möglichkeiten in der IT-Sicherheit. Cyberkriminelle hinterlassen zwangsläufig individuelle stilistische Spuren, wenn sie Schadsoftware entwickeln. Mit OCEAN lassen sich Verbindungen zwischen scheinbar unabhängigen Angriffen herstellen und potenzielle Urheber ausfindig machen. Für Ermittlungsbehörden könnte diese Methode künftig als forensisches Werkzeug in Gerichtsverfahren dienen.

Sicherung der Software-Lieferkette

Im Rahmen des Forschungsprojektes SOVEREIGN, das sich dem Schutz kritischer Infra­struk­tur­en widmet, spielt OCEAN auch für die Software-Lieferkette eine zentrale Rolle. Supply-Chain-Angriffe, bei denen Updates manipuliert werden, um Hintertüren einzuschleusen, stellen eine zunehmende Bedrohung dar. Häufig bleiben solche Manipulationen unbemerkt, da sich der eingeschleuste Code nahtlos in die bestehende Software einfügt.

Hier kommt die Technik von OCEAN ins Spiel: Durch den Vergleich des Code-Stils eines Updates mit dem vorherigen Zustand der Software können plötzlich auftretende, stilistisch abweichende Codeabschnitte erkannt werden. Dies ist ein möglicher Hinweis auf bösartige Eingriffe. In einer Fallstudie konnte das Forscherteam diesen Ansatz bereits erproben: Sie simulierten einen Angriff auf die Software-Lieferkette, indem bekannte Schadsoftware in ein Software-Update integriert wurde. Dabei konnten sie eine signifikante Abweichung in der Autorenschaft messen. Das bedeutet zwar nicht zwangsläufig, dass die Lieferkette bereits kompromittiert wurde, sollte jedoch als Weckruf verstanden werden. Entweder indem diesem Bereich in weiteren automatisierten Analysen mehr Aufmerksamkeit gewidmet wird oder direkt bei dem betroffenen Unternehmen nachgefragt wird, ob sich etwa das Entwicklerteam verändert hat.

Die Technik hinter OCEAN

Die Punktewolke zeigt, wie der KI-Ansatz OCEAN Code-Stile erkennt und Entwickler identifiziert. Jeder Punkt repräsentiert eine Code-Funktion, die einer bestimmten Person zugeordnet ist. Trotz Compiler-Optimierungen bleiben stilistische Eigenheiten erhalten, so dass sich die beiden Gruppen in der Regel deutlich unterscheiden und eine Unterscheidung zwischen den beiden Autoren möglich ist.(Bild:  Felix Mächtle)
Die Punktewolke zeigt, wie der KI-Ansatz OCEAN Code-Stile erkennt und Entwickler identifiziert. Jeder Punkt repräsentiert eine Code-Funktion, die einer bestimmten Person zugeordnet ist. Trotz Compiler-Optimierungen bleiben stilistische Eigenheiten erhalten, so dass sich die beiden Gruppen in der Regel deutlich unterscheiden und eine Unterscheidung zwischen den beiden Autoren möglich ist.
(Bild: Felix Mächtle)

Im Kern beruht OCEAN auf kontrastivem Lernen – einem Machine-Learning-Ansatz, der Programme paarweise vergleicht, um festzustellen, ob sie vom gleichen Autor stammen. Die gleiche Technik findet sich auch in der Gesichtserkennung von Smartphones, wo durch kontrastives Lernen erkannt wird, ob zwei Bilder von Gesichtern zum gleichen Menschen gehören.

Als Herzstück des Systems dient ein neuronales Netzwerk, das speziell für die Verarbeitung von Programmiersprachen optimiert ist. Ein großer Vorteil: OCEAN ist nicht auf den ursprünglichen Quellcode angewiesen, sondern arbeitet auch zuverlässig mit Maschinencode. Tests mit realen Open-Source-Programmen zeigten, dass das System eine Genauigkeit von 86 % erreicht – selbst bei hoher Compiler-Optimierung. Compiler-Optimierung bedeutet, dass der Compiler den Quellcode automatisch verändert, um etwa die Ausführungsgeschwindigkeit zu erhöhen. Dabei können jedoch auch charakteristische Stilmerkmale des ursprünglichen Codes modifiziert werden, was die Identifikation des individuellen Autorenstils zusätzlich erschwert.

Ausblick

Mit der Entwicklung von OCEAN wird der Blick auf den Programmierstil als unverwechselbares Merkmal für die Cyberabwehr erweitert. Während traditionelle Ansätze oft an die Grenzen der Quellcode-Analyse stießen, zeigt der neue Ansatz, dass auch Binärdateien wertvolle Informationen über den Urheber enthalten und das in einem realitätsnahen „open world“-Szenario.

Über die Rückverfolgung von Cyberangriffen hinaus eröffnet der Ansatz auch neue Möglichkeiten, grundlegende Fragen zur Herkunft und Zuordnung von Code zu klären. So könnte OCEAN künftig etwa dabei helfen, automatisch erzeugten Code von menschlichem Code zu unterscheiden. Dieser Aspekt ist insbesondere im Hinblick auf Haftungsfragen bei KI-gestützter Programmierung von Bedeutung.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Gleichzeitig wirft die Technologie aber auch kritische Fragestellungen auf. So könnte die Fähigkeit, individuelle Programmierstile zuzuordnen, etwa von Unternehmen oder staatlichen Stellen genutzt werden, um Entwickler gezielt zu überwachen. Der Schutz der Privatsphäre und die Wahrung der Anonymität in der digitalen Welt stehen somit ebenso im Fokus wie der Einsatz der Technik zur Verbesserung der IT-Sicherheit.

Bereits heute zeigt sich, dass die feinen Nuancen im Programmierstil so ausgeprägt sind, dass sie zuverlässig erkannt werden können. Damit sind Chancen, aber auch neue Herausforderungen verbunden. Die Zukunft der digitalen Forensik wird daher nicht nur von technologischen Fortschritten, sondern auch von einem verantwortungsvollen Umgang mit diesen neuen Möglichkeiten abhängen.

Die Herausforderungen durch Cyberkriminalität, Supply-Chain-Angriffe und den zunehmenden Einsatz von KI in der Softwareentwicklung nehmen stetig zu. Ob die maschinengestützte Autorenerkennung bald zum Standard in der IT-Sicherheit avanciert, bleibt abzuwarten – doch eines ist klar: Mit OCEAN rückt die digitale Spurensuche einen entscheidenden Schritt näher an die Realität.

Über den Autor: Felix Mächtle ist Forscher am Institut für IT-Sicherheit der Universität zu Lübeck im Bereich Maschinelles Lernen und Cybersecurity. Er ist Mitglied des KI-Forschungsnetzwerks AI Grid, einer Initiative, die den Austausch zwischen jungen Talenten und führenden KI-Experten fördert. Hier treibt Mächtle in der Mikro-Fokusgruppe für IT-Sicherheit und KI mit anderen Forschenden im AI Grid den Austausch über innovative Ansätze zum Schutz vor digitalen Bedrohungen voran.

(ID:50326023)