Cybercrime mit Hilfe künstlicher Intelligenz KI-Betrug mittels Deepfakes

Von Anna Kobylinska und Filipe Martins

Anbieter zum Thema

Der Missbrauch von KI/ML für Cyberattacken nimmt weiter sprunghaft zu. Cyber-Betrüger machen sich neuerdings wieder Social Engineering mit Deepfakes zu Nutze – denn es funktioniert. KI-generierte synthetische Realität als Betrugsmasche ist eine Cyber-Bedrohung der besonderen Art.

Cyber-Betrug durch Deepfakes ist keine abstrakte Theorie mehr, sondern bereits Realität. Oft reichen schon wenige Daten von einer echten Person um eine täuschend echte Fälschung zu erzeugen.
Cyber-Betrug durch Deepfakes ist keine abstrakte Theorie mehr, sondern bereits Realität. Oft reichen schon wenige Daten von einer echten Person um eine täuschend echte Fälschung zu erzeugen.
(Bild: gemeinfrei / Pixabay)

Laut einem Bericht des University College London vom 4. August 2020 sind Deepfakes die am meisten besorgniserregende Implementierung von KI durch Cyberkriminelle und Terroristen. Das britische Management eines deutschen Energieversorgers musste diese Lektion auf die harte Tour lernen. Ein Telefonanruf aus der Konzernzentrale wurde in der britischen Niederlassung zum Geschäftsführer durchgestellt. Es war ein Freitag am späten Nachmittag. „Hello,“ eine selbstbewusste Stimme mit starkem deutschem Akzent ertönte auf Englisch am anderen Ende der Leitung. Der Empfänger hat sein Gegenüber an der Sprechweise erkannt und ließ sofort alles stehen. Einen Anruf vom Konzernchef bekommt man nicht alle Tage.

Die Konzernzentrale müsse dringend 220.000 Euro an einen Lieferanten in Ungarn überweisen, sagte sein Gegenüber. Unbedingt noch vor dem Wochenende, sonst drohe eine Vertragsstrafe. Die Banken in Deutschland hätten gerade Feierabend gemacht; auch in England waren sie dabei, zu schließen. Den Letzten beißen die Hunde. Der britische Manager leitete die Überweisung in die Wege. Das Geld verließ das Land – ein teurer Fehler. Die britische Niederlassung war auf den ausgefuchsten Betrug einer künstlichen Intelligenz hereingefallen.

KI-gestützte Sprach- und Bildsynthese

Die Betrugsmasche schien zu jenem Zeitpunkt noch völlig unvorstellbar: Ein Computer soll in Echtzeit in einem improvisierten Gespräch die Stimme einer lebensechten Person nachahmen können – samt Akzent, Intonation und ggf. Raumklang – und dabei einen Insider hinters Licht führen. Das würde doch nie passieren. Sicher doch. Es klappt ja mit Audio und es klappt mit Video. Synthetische Realität sieht zur Verwechslung lebensecht aus.

KI-Fälschungen haben den Mainstream erreicht – spätestens als SnapChat beschlossen hatte, mit künstlicher Intelligenz Videoclips seiner Nutzer aufzulockern. Das beliebte soziale Netzwerk ließ sich dazu das ukrainische KI-Startup Looksery rund 150 Millionen US-Dollar kosten. Drei Jahre später war es soweit: Katzenzähne, virtuelle Fee-Wimpern und Vulkan-Ohren gehören seither zum „Leistungsumfang“ der kostenfreien App. Seit SnapChat diese und andere Special Effects auf Video-Streams – in Echtzeit auf einem ganz gewöhnlichen Smartphone – einfach so zaubern kann, hat die Trickserei ihren Wow-Faktor verloren – jedoch bei Weitem nicht ihren kommerziellen Reiz. Denn die kriminelle Unterwelt des Cyber-Space schläft nicht. Sie entwickelt Software.

Für Hollywood-Filmstudios und den Rest der Unterhaltungsbranche ist die Sprach- und Videosynthese per KI gefundenes Fressen. Wenn Komiker durch die Late-Night-Shows tingeln und ausdrucksstarke Persönlichkeiten wie Arnold Schwarzenegger, Tom Cruse oder andere „Promis“ scherzhaft imitieren, kugeln sich die Zuschauer vor Lachen. Doch der Übergang von Scherz zu Ernst ist im KI-Zeitalter fließend.

Die Gefahr umfasst weitaus mehr als „nur“ neue Tricks für Social Engineering der arglosen Einwilligung oder folgenschwere Fehlgriffe von ahnungslosen Insidern. Synthetisches Video und synthetische Stimme erweitern erheblich das Arsenal an Instrumenten der Manipulation, welche Cyber-Tätern zur Verfügung stehen. Die Technologie ist reif für Missbrauch.

Deepfake-as-a-Service: die perfekte Besatzung

Vergleich der Resultate der Videosynthese unter Verwendung gängiger Methoden (Spalten 3 bis 5): Die Software projiziert das Erscheinungsbild der Person in der zweiten Spalte auf das Gesicht in der ersten spalte.
Vergleich der Resultate der Videosynthese unter Verwendung gängiger Methoden (Spalten 3 bis 5): Die Software projiziert das Erscheinungsbild der Person in der zweiten Spalte auf das Gesicht in der ersten spalte.
(Bild: Disney Research)

Die breite Verfügbarkeit von quelloffenen Toolkits, Cloud-Diensten, Desktop-Anwendungen und anderer Deepfake-Generatoren hat sich noch nicht herumgesprochen, doch die Katze ist bereits aus dem Sack.

Auf der Eurographics-Konferenz, die Ende Juni 2020 bis Anfang Juli 2020 stattfand, hat Disney Research Studios in Zusammenarbeit mit der ETH Zürich die neuesten Errungenschaften der gemeinsamen Forschung vorgeführt. Eine künstliche Intelligenz meisterte die Übertragung des visuellen Erscheinungsbildes einer Person auf eine andere in einem Videoclip in hoher Auflösung und konnte dabei die Präzision alternativer Lösungen wie DeepFakes und DeepFaceLab deutlich übertreffen.

Fortgeschrittene Technologie der Audio- und Videosynthese haben unter anderem Adobe Systems und NVIDIA im Köcher. Adobe hat u.a. Adobe Audition, der Flaggschiffsoftware zur Audiobearbeitung, welche Adobes leistungsstarke Sammlung von Werkzeugen, die Adobe Creative Cloud, unter anderem eben um fortgeschrittene Fähigkeiten zur Sprachsynthese erweitert. In der Postproduktion kann das Werkzeug bestehende Audioaufnahmen lebensechter Sprecher durch bloßes Editieren der geskripteten Texte verändern.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Der KI-Generator menschlicher Stimme in Adobe Audition unterstützt die deutsche Sprache.
Der KI-Generator menschlicher Stimme in Adobe Audition unterstützt die deutsche Sprache.
(Bild: Martins)

Overdub von Descript (mit Lyrebird AI) bietet eine ähnliche Software zur Stimmsynthese und -Bearbeitung für Medienschaffende. Bestimmungsgemäße Nutzungsszenarien umfassen unter anderem das Erzeugen von Voiceovern. Der Benutzer nimmt seine Stimme auf und kann dann beliebiges Sprachmaterial durch reine Sprachsynthese mit KI erzeugen. Auch andersherum wird auch ein Schuh daraus. Die Software ist unter anderem bei englischsprachigen Podcastern sehr beliebt.

Adobe hat erhebliche Mühe investiert, um das synthetisierte Audio für forensische Tools erkennbar zu machen – in Anerkennung der Tatsache, dass die mächtige Technologie in den falschen Händen großes Unheil anrichten kann. Es ist nicht klar, welche Schritte Overdub dahingehend unternommen hat. Denn NVIDIA experimentiert mit einem generativen, kontradiktorischen neuronalen Netzwerk namens GauGAN für die Synthese visueller Medien.

Dieser KI-Bildgenerator nutzt NVIDIAs generisches kontradiktorisches Netzwerk GauGAN, um Bildmaterial aus semantischen Anweisungen zu erzeugen. Links: die semantische Segmentierungskarte, rechts das Resultat.
Dieser KI-Bildgenerator nutzt NVIDIAs generisches kontradiktorisches Netzwerk GauGAN, um Bildmaterial aus semantischen Anweisungen zu erzeugen. Links: die semantische Segmentierungskarte, rechts das Resultat.
(Bild: NVIDIA)

Echt täuschend oder täuschend echt?

Der Sicherheitsspezialist Symantec hat im vergangenen Jahr drei separate Vorfälle von Cyber-Diebstahl mit Deepfakes gemeldet.

Im Falle des deutschen Energieversorgers ist für die 220.000 Euro die Versicherung eingesprungen. Sollte mal ein virales Deepfake die Finanzmärkte erschüttern oder eine Wahl kippen, könnten die Folgen einer vergleichbaren Blitzentscheidung weitaus längeren Bestand haben.

Den Ausschlag für den Ausgang einer Wahl liefert oft eine geringe Minderheit von Wechselwählern, die sich förmlich in der letzten Minute emotionsgetrieben entscheiden. Für den Impuls zu einer Börsenpanik braucht es aber auch nicht viel. Ein Deepfake-Video von dem Geschäftsführer mit der Bekanntmachung schlechter Umsatzprognosen könnten den Aktienkurs auf Talfahrt schicken.

„Gefälschte Medien wie Videos, Fotos, E-Mails, Transaktionsbelege usw. stellen ein enormes Risiko für Unternehmen und die Gesellschaft insgesamt dar“, sagt Andrew B. Gardner, Senior Technical Director and Head of AI/ML für das Center for Advanced Machine Learning (CAML) des Sicherheitsspezialisten Symantec. „Meiner Meinung nachstellen [Deepfakes] das größte Risiko dar, mit dem wir in einer AI/ML-Welt umgehen müssen: Wie können Sie überhaupt noch Entscheidungen treffen, solange Sie nicht wissen, was echt ist?“, argumentiert er. Diese Münze hat aber zwei Seiten und so gehen die Meinungen auseinander.

„Deepfakes stellen (...) tatsächlich ein Risiko dar, wenn gefälschte Mediennachrichten als real erscheinen“, bestätigt Henry Ajder, Head of Threat Intelligence bei Sensity (a.k.a. Deeptrace Labs), einem Anbieter von Sicherheitslösungen zur Abwehr von visuellen Bedrohungen und Betrugsmaschen. Schnell fügt er dann aber hinzu: „Im Moment besteht die greifbarere Bedrohung eher darin, dass die bloße Idee von Deepfakes missbraucht werden kann, um die Realität als gefälscht abzustempeln“ argumentiert er weiter. Der Hype und die eher sensationelle Berichterstattung über die politischen Auswirkungen von Deepfakes hätten aus seiner Sicht die „tatsächlichen Vorfälle“ bei Weitem „überschattet“.

Das dürfte stimmen, aber nur wenn alle folgenschweren Deepfakes tatsächlich als solche „aufgeflogen“ sein sollten – und darüber besteht ja gerade keinerlei Gewissheit. Denn das Ausbleiben solcher Vorfälle bedeutet keinesfalls, dass sich keinerlei hochkarätigen Deepfakes mit Auswirkungen auf Politik oder etwa die Finanzmärkte im Umlauf befinden würden. Ganz im Gegenteil. Analysten von Forrester Research und KI-Forscher der kalifornischen Berkeley-Universität gehen davon aus, dass Deepfakes in 2020 sogar die eine oder andere Regierungskrise auslösen und bis zu einer viertel Milliarde US Dollar an Vermögenswerten vernichten könnten.

Solange synthetisches Audio und Video nicht offensichtlich als gefälscht auffallen, „fliegt“ ein Deepfake einfach „unter dem Radar“ und übt dann möglicherweise subliminale Wirkung aus.

Professor Nasir Memon und sein Team von der Tandon School of Engineering an der New York University (NYU) haben eine Methode entwickelt, um die Aufdeckung von DeepFakes zu erleichtern. Hierzu müsse jede Kamera und Software mit Hilfe von KI einige Artefakte in Videos und Bilder einbetten. Diese Artefakte, für das bloße Auge der Zuschauer nahezu unsichtbar, ließen sich dann im Zuge einer Forensischen Datenanalyse (FDA) auslesen. Langfristig könnte eine Blockchain-Plattform die Authentizität von Video- und Audiomaterial bewachen.

Das Aufkommen von Deepfakes ist eine Einbahnstraße

„Wir haben ja bereits die sogenannten „Shallow-Fakes“ gesehen, die online mit der Absicht verbreitet wurden, um den politischen Diskurs zu verzerren oder Politiker zu delegitimieren“, sagt Paul Scharre, Director of Technology & National Security bei CNAS. „Es wurde sogar selektiv an den Videos herumgeschnitten, um den wahren Kontext eines politisch relevanten Ereignisses zu verfälschen,“ führt er weiter ins Feld. Beim Einsatz hochwertiger AI-manipulierter Videos stehe aus seiner Sicht noch weitaus mehr auf dem Spiel. Es sei nur eine Frage der Zeit, bis Deepfakes missbraucht werden würden, um Wahlen zu manipulieren, urteilt er.

Der politische Kontext von Deepfakes ist im Grunde genommen nur eine andere Dimension von Social-Engineering. Das Phänomenon wird im Unternehmensumfeld mit Industriespionage in Verbindung gebracht und dient unter anderem auch der Informationsbeschaffung für besonders folgenschwere Hacker-Angriffe.

Synthetische Interaktionen mit KIs

Ein LinkedIn-Account im Namen einer „Katie Jones“ stellte sie als eine Forscherin bei einer US-amerikanischen Denkfabrik, dem Center for Strategic and International Studies in Washington, dar. Der Account initiierte immer wieder neue Verbindungen unter anderem mit hohen Regierungsbeamten, bis jemand schließlich Verdacht schöpfte.

Zum „Cyber-Tatort“ der möglichen Spionageoperation wurden unter anderem Deepfake-Experten gerufen. Sie konnten in dem Profilfoto mehrere visuelle Anomalien ausmachen, die sich auf den Einsatz der sogenannten GANs (Generative Adversarial Networks, auf Deutsch „generative kontradiktorische Netzwerke“) zurückführen lassen. LinkedIn hat prompt das Benutzerkonto geschlossen. Und dann das nächste. Und ein paar tausend andere.

Der deutsche Mittelstand ist schon länger im Visier von Cyber-Spionage, nur bisher waren synthetische Interaktionen mit künstlichen Intelligenzen am Telefon eher unüblich. Die deutsche Volkswirtschaft verliert im Jahr mindestens 100 Mrd. Euro durch Spionage, Sabotage und Datendiebstahl, warnt der Branchenverband Bitkom in seinem Studienbericht 2020 „Spionage, Sabotage und Datendiebstahl – Wirtschaftsschutz in der vernetzten Welt“.

Fitnesstraining für KIs

KI-Systeme des Tiefen Lernens benötigen Trainingsdaten, um eigene schöpferische Leistung hervorzubringen. Je bekannter eine Persönlichkeit, desto mehr Audio- und Video-Material gibt es frei zugänglich in der Public Domain und umso einfacher ist dann die Sprach- und Bildsynthese. Doch gerade Daten gibt es in Hülle und Fülle. Eine Milliarde vernetzter Überwachungskameras sollen bis Ende des Jahres 2020 weltweit in Betrieb sein.

„Aufgrund des rasanten Fortschritts in KI können wir [ganz sicher] davon ausgehen, dass [die Synthese] von Deepfakes in kürzester Zeit besser, billiger und einfacher wird,“ sorgt sich Jack Clark, Policy Director bei OpenAI, einer Forschungsorganisation mit Schwerpunkt auf KI. Regierungen sollten aus seiner Sicht in die Entwicklung von Fähigkeiten zur Erkennung dieser Technologien investieren.

Das Potenzial für Missbrauch ist enorm. Es ist nur eine Frage der Zeit bis MFA-Authentifizierungssysteme, die sich auf die Stimmerkennung verlassen, an synthetischer Sprache scheitern werden und Cybertätern Tür und Tor eröffnen. Es ist ein kleiner Schritt mit gravierenden Konsequenzen.

Fazit

Mit dem Aufkommen von DeepFake-KI kommen auf Unternehmen neue Cyber-Bedrohungen zu. Die Kunst des Social Engineering wechselt auf die Überholungsspur.

Über die Autoren: Anna Kobylinska und Filipe Pereira Martins arbeiten für McKinley Denali Inc. (USA).

(ID:47049101)