Malware-Prävention durch Machine Learning

Cyberabwehr mit mathematischen Modellen Malware-Prävention durch Machine Learning

27.04.2017Autor / Redakteur: Detlev Pacholke* / Peter Schmitz

Die herkömmliche, signaturbasierte Abwehr von Cyber-Angriffen kommt immer häufiger an ihre Grenzen. Zu den neuen Methoden, die diese Schwächen ausgleichen, gehört das „Machine Learning“, das mit mathematisch-statistischen Modellen schädliche Dateien identifiziert.

Anbieter zum Thema

fsas-afc-horizontal-2-positive-rgb-nov24 (Fsas)

Fujitsu Technology Solutions GmbH

NTT Security (Germany) GmbH

Mit Machine Learning lässt sich auch Malware erkennen, die zuvor unbekannt war; die zugrundeliegenden Modelle können sich selbst optimieren.
(Bild: Pixabay / CC0 )

Zu den Standards der Abwehr von Malware gehören signaturbasierte Verfahren, die oft schon in die Betriebssysteme integriert sind, so etwa Windows Defender. Sie beruhen im Grunde darauf, dass möglichst viel Malware gesichtet, mit einer Prüfsumme beziehungsweise einem Hash-Wert gekennzeichnet und in einer Art Katalog hinterlegt wird. Dieser wird an die potenziellen „Opfer“ verteilt, die dann anhand der festgestellten Eigenschaften, also der im Hash-Wert festgehaltenen Signatur, Malware identifizieren können. Die Problematik dieses Verfahrens liegt auf der Hand: Auf diese Weise kann nur bereits einmal erfasste und identifizierbare Malware bekämpft werden. Es kommt daher zu einem ständigen Wettlauf zwischen dem Erfassen und dem Entstehen neuer, noch nicht gesichteter Malware; ein Wettlauf, bei dem – und das liegt in der Natur der Sache – die Angreifer immer einen Schritt voraus sind – zumal sie ihre Software nur geringfügig verändern müssen, um eine andere Signatur zu erhalten und damit unerkannt zu bleiben.

Aus diesem Grund werden immer wieder alternative beziehungsweise ergänzende Verfahren entwickelt, so etwa Sandboxing, Micro-Virtualisierung oder Exploit Protection. Relativ neu im Markt ist das sogenannte Machine Learning (ML), bei dem Malwareprozesse mit mathematisch-statistischen Modellen erkannt und damit verhindert werden. ML wurde erstmalig vom amerikanischen Hersteller Cylance vorgestellt, mittlerweile gibt es aber auch andere Anbieter. Der wesentliche Unterschied zu den signaturbasierten Verfahren besteht darin, dass hier auch bislang unbekannte oder speziell geschützte, etwa durch Verschlüsselung oder Packing, Malware identifiziert werden kann. Auf diese Weise lassen sich sogar sogenannte Crypter wie Aegis bekämpfen.

Das Erkennen von Malware auf Basis von ML und das Verhindern der Ausführung basiert auf vier Phasen: sammeln, extrahieren, lernen und klassifizieren.

Phase 1: Datensammlung

Auch bei ML beginnt die Analyse mit dem Sammeln von Daten. Dabei werden ausführbare Dateien gesammelt, also EXE, PDFs, Java oder Flash, aber beispielsweise auch Microsoft-Office-Dokumente; interessant sind vor allem Dateien mit den Endungen exe, dll, com, pdf, java, a, doc, xls, und ppt. Diese Dateien erhält Hersteller Cylance über Feeds von Industriepartnern sowie aus öffentlichen und eigenen Datensammlungen. Folgende Aspekte sind bei der Datensammlung wichtig:

Die Dateien haben eine relevante Größe, typischerweise sind die Dateien ein bis fünf Megabyte groß;

die Dateien decken gesammelt eine große Vielfalt von Dateitypen und Datei-Erstellern ab;

die Datensammlung darf nicht auf bestimmte Hersteller oder Typen beschränkt sein.

Anschließend werden die Dateien in drei Kategorien „vorklassifiziert“:

bekannt unschädlich;

bekannt schädlich;

unbekannt.

Phase 2: Extraktion

In dieser Phase werden aus den Dateien mittels Algorithmen Merkmale extrahiert. Diese Merkmale können zum Beispiel die Dateigröße einer ausführbaren Datei sein, oder der verwendeten Compiler; es gibt auch komplexe Merkmale wie die ersten logischen Transaktionen des ausführbaren Codes. Während bei signaturbasierten Verfahren mit dem Hash-Wert nur ein Merkmal verwendet wird, werden hier tausende von Merkmalen erfasst, so dass damit beispielsweise auch die Art der Programmierung identifiziert werden kann.

Die Auswertung so vieler Merkmale erschwert es einem Angreifer, einen neuen Schadcode beliebig zu reproduzieren, indem etwa nur ein Parameter verändert wird. Mit einer derartigen Datei-Mutation würde zwar eine neue Variante entstehen, für die keine Signatur bereitsteht – der Hash-Wert ändert sich ja – andere Merkmale haben sich jedoch nicht geändert. Das aus der Extraktion resultierende Konglomerat von Merkmalen bildet die Basis für die mathematischen Modelle, die in den nächsten Schritten zur Identifizierung und Beurteilung konkreter Daten verwendet werden.

Phase 3: Lernen

Anhand von Millionen gewonnener Merkmale entwickelt und prüft Cylance dann Modelle, die eine Vorhersage der Schädlichkeit konkreter Dateien erlauben. Dabei werden zahlreiche Modelle parallel entwickelt, einige verworfen und nur die effektivsten Modelle weiterentwickelt. Durch die Anwendung der Modelle auf bekannte Malware-Dateien können die Modelle optimiert werden; Rückkopplungseffekte in diesem Lernprozess sorgen für weitere Verbesserungen. Das finale Modell wird dann aus der Testumgebung in die Produktionsumgebung überführt. Die für die Modellbildung eingesetzten Algorithmen werden von den Anbietern dieser Methode allerdings nicht veröffentlicht.

Für jede Datei werden tausende von Merkmalen überprüft, um Schadcode von erwünschten Dateien zu unterscheiden. Daher lässt sich Malware unabhängig von „äußerlichen“ Veränderungen mit einer hohen Treffsicherheit identifizieren, wenn sie beispielsweise gepackt wurde oder wenn sie noch nie aufgetreten ist. Unerkannt bliebe hier nur ein Angreifer, der völlig neue Verfahren und ganz neue Werkzeuge verwenden würde; aber auch das nur bis zur ersten Identifikation.

Phase 4: Klassifizierung

Sind die Modelle vorhanden, so können sie in einer Engine, die der Anbieter bereitstellt und die lokal oder via Cloud genutzt werden kann, in Echtzeit zur Klassifizierung unbekannter Dateien vor der Ausführung verwendet werden. Das Ergebnis ist ein „Confidence Score“ für jede untersuchte Datei – ein Prozentwert, der angibt, wie verlässlich beziehungsweise gefährlich die jeweilige Datei ist. Mit diesem Score kann ein Administrator über das weitere Schicksal der Datei entscheiden, also beispielsweise sie blockieren, überwachen oder freigeben. Eine derartige Analyse dauert nur Millisekunden und benötigt erheblich weniger Ressourcen – hinsichtlich RAM und CPU – als herkömmliche Analyseverfahren; auch die täglichen Signatur-Updates entfallen hier.

Mehrstufiger Prozess

Anders als die herkömmliche Malware-Analyse können die ML-Modelle aber nicht nur gute und schädliche Dateien unterscheiden, sondern auch verdächtige identifizieren. Sobald der Score niedriger als 20 Prozent ist, handelt es sich um Software, die man weiter untersuchen sollte. Dabei muss es sich nicht unbedingt um Malware handeln, es können auch Administrations-Tools sein, die benutzt werden, um Sicherheitsrichtlinien oder Mechanismen zu umgehen oder auch um Systeme zu missbrauchen. Mit dem ML-Verfahren gibt es also auch keine Grauzone zwischen echter Malware und dem, was auf den Whitelists steht.

Der Begriff „Machine Learning“ zur Charakterisierung dieses Verfahrens ist leider etwas missverständlich, da das Lernen nur ein Teilschritt im Prozess ist, während der eigentliche Kern die Entwicklung der merkmalgesteuerten Modelle ist. „Model Based Protection“ wäre hier vielleicht ein treffenderer Begriff gewesen, aber Machine Learning ist nun mal eingeführt; und worauf es ankommt ist schließlich, dass die Sache funktioniert.

In der Praxis wird man natürlich die signaturbasierenden Methoden nicht einfach durch das ML-Verfahren ersetzen, sondern einen mehrstufigen Prozess einrichten. Dabei kann eine signaturbasierende Vorfilterung etwa mit Windows Defender erfolgen, und was dabei nicht erkannt wurde, wird vom ML-Verfahren übernommen. Das Schutzniveau lässt sich so deutlich erhöhen und auch Ransomware hat in diesem Umfeld kaum eine Chance mehr.

* Detlev Pacholke ist Senior Solution Manager Digital Workforce & Mobility bei NTT Security.

(ID:44652224)