Mit moderner KI-Technik gegen Voice Deepfakes Reale Gefahr durch synthetische Stimmen

Ein Gastbeitrag von Ismet Koyun 4 min Lesedauer

Anbieter zum Thema

Im selben rasanten Tempo, in dem künstliche Intelligenz (KI) Fortschritte macht, nehmen auch die Cyberbedrohungen in Zusammenhang mit KI zu. Immer stärker im Fokus: Voice Deepfakes, also synthetisch erzeugte Audioaufnahmen, die menschliche Stimmen nachahmen. Mit welchen Technologien lässt sich auf diese bedrohliche Entwicklung reagieren?

Modernsten Text-to-Speech- und Voice-Conversion-Tools reichen schon wenige Sekunden Sprachaufnahmen einer Person, um daraus eine überzeugende Imitation zu erstellen.(Bild:  lassedesignen - stock.adobe.com)
Modernsten Text-to-Speech- und Voice-Conversion-Tools reichen schon wenige Sekunden Sprachaufnahmen einer Person, um daraus eine überzeugende Imitation zu erstellen.
(Bild: lassedesignen - stock.adobe.com)

Täuschend echte Stimmenfälschungen sind mittlerweile möglich – und das ohne großen Aufwand und tiefes technisches Wissen. Der KI reichen wenige Sekunden mit Sprachaufnahmen einer Person, um daraus – mit Technologien wie Text-to-Speech (TTS) und Voice Conversion (VC) – eine überzeugende Imitation zu erstellen. Diese Sprachaufnahmen sind leicht zu organisieren – etwa durch Sprachnachrichten in Messenger-Diensten, öffentlich zugängliche Interviews oder wenn jemand an einem Webinar oder virtuellen Meeting teilnimmt und dort spricht.

Die Gefahr durch Voice Deepfakes ist längst real und darf keinesfalls unterschätzt werden. Das beginnt bei bekannten Betrugsmaschen wie dem „Enkeltrick“. Es wird immer unmöglicher, KI-generierte Stimmen von echten zu unterscheiden – selbst für enge Familienangehörige der imitierten Person. Kriminelle haben oft leichtes Spiel, sich am Telefon Geld oder Passwörter zu ergaunern.

Auch auf Unternehmensebene wird Identitätsdiebstahl zur Bedrohung. Es wurden schon Cyberangriffe publik, bei denen Mitarbeiter auf synthetische Stimmen hereinfielen und sensible Unternehmensdaten oder Geld weitergaben. Zu überzeugend war der vermeintliche Chef im Call.

Besonders gefährlich ist es bei Personen des öffentlichen Lebens. Werden Politikern Dinge in den Mund gelegt, die sie nie gesagt haben, erleichtert das Falschinformation, Manipulation und Propaganda. Mit böswilliger (politischer) Absicht eingesetzt, unterhöhlen Deepfakes die Demokratie. Mehr noch: Sie lassen die Grenze zwischen Wahrheit und Lüge verschwimmen – wie sollen wir uns noch sicher sein, was wir glauben können?

Warum sind Voice Deepfakes so schwer zu erkennen und abzuwehren?

Herkömmliche Methoden zur Verifizierung reichen nicht mehr aus, um KI-generierte Fälschungen zu erkennen. Die Qualität der synthetischen Stimmen wird kontinuierlich – und immer schneller – besser. Bis vor Kurzem war es selbst für Laien noch leicht herauszuhören, ob eine Stimme künstlich erzeugt wurde. Doch die KI-Modelle haben in den letzten Jahren und Monaten einen Technologiesprung gemacht. Sie erzeugen mittlerweile nicht nur verständliche Sprache, sondern ahmen auch subtile Eigenschaften menschlicher Stimmen nach: Betonungen, spezifische Sprechrhythmen und -pausen, charakteristische Stimmfarben.

Das ist ein ernstes Problem für die Informationssicherheit und das Vertrauen in digitale Kommunikation. Verfahren, die eigentlich zu mehr Cybersicherheit beitragen sollen, wie die Authentifizierung über die Stimme (Voice-ID), werden selbst zum Sicherheitsrisiko. Es zeigt aber auch, dass wir auf KI angewiesen sind, um Bedrohungen durch KI abzuwehren. Je fortschrittlicher und raffinierter die Technologie hinter Cyberangriffen, desto besser, schneller und moderner muss die Technik sein, die wir entgegensetzen.

Welche Ansätze zur Erkennung von Voice-Deepfakes gibt es?

Die gute Nachricht: Wirksame Technologien zur Erkennung von Audio-Deepfakes gibt es bereits. Weltweit entwickeln Forscher Methoden, um synthetische von authentischen Stimmen zu unterscheiden. Bei fast allen Ansätzen kommt KI zum Einsatz, um das Aufspüren von Fakes zu automatisieren. Künstliche neuronale Netze werden mit großen Datensätzen echter und geklonter Stimmen trainiert. So lernen die Systeme mit der Zeit, subtile Unterschiede zu erkennen. Einige Ansätze nutzen zudem Akustik und spektrografische Analysen. Dabei wird das Frequenzspektrum von Audiodaten untersucht, um unnatürliche Muster zu erkennen.

An der TU Darmstadt forscht ein Team um Prof. Dr. Ahmad-Reza Sadeghi an einer KI-gestützten Deepfake-Aufspürung.(Bild:  TU Darmstadt)
An der TU Darmstadt forscht ein Team um Prof. Dr. Ahmad-Reza Sadeghi an einer KI-gestützten Deepfake-Aufspürung.
(Bild: TU Darmstadt)

Andere Forschungen setzen vor allem da an, wo die Fälschungen zuletzt immer besser wurden: bei biometrischen Merkmalen. Denn trotz aller Fortschritte fehlen KI-generierten Stimmen bestimmte feine Details, die menschliche Sprache auszeichnen. Kaum wahrnehmbare Variationen werden zum Beispiel durch Atmung, Muskelanspannung und Emotionen beeinflusst. Am vielversprechendsten sind die Ansätze, die alle diese Methoden kombinieren.

Auch an der Technischen Universität Darmstadt forscht ein Team um Prof. Dr. Ahmad-Reza Sadeghi seit Jahren an einer KI-gestützten Deepfake-Aufspürung. „Bisherige Erkennungssysteme stoßen immer mehr an ihre Grenzen. Aber selbst fortschrittlichste KI-Systeme haben Schwierigkeiten, die Variabilität menschlicher Stimmen zu reproduzieren“, so der Professor für Cybersecurity. „Natürliche Sprache ist nicht immer gleich. Sie enthält zum Beispiel zeitliche Inkonsistenzen und Tonhöhenschwankungen, die durch Emotionen, physische Anstrengung und Gesprächsdynamik beeinflusst werden. Diese minimalen Abweichungen können wir erkennen.“

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Das an der TU Darmstadt entwickelte „VoiceRadar“-Modell basiert auf maschinellem Lernen und Deep-Learning-Algorithmen, ist aber auch von Modellierungsansätzen aus der Physik inspiriert. Ähnlich wie bei einem Radarsystem nutzt es Schwingungen und den Doppler-Effekt, um Mikro-Frequenzen in Sprachaufnahmen zu analysieren. So lassen sich Stimmen in einzigartige Muster zerlegen. Damit ist es wesentlich zuverlässiger möglich, Deepfakes zu erkennen und menschliche Stimmen als solche zu verifizieren.

Worauf wird es in Zukunft ankommen?

Die Forschung muss mit der schnellen Entwicklung von KI-Technologien Schritt zu halten – es ist ein Wettlauf zwischen neuen Generierungstechniken und besseren Erkennungsmethoden. Daher ist es entscheidend, dass Lösungen möglichst flexibel und generalisierbar sind. Dann bieten sie Widerstand gegen immer neue adaptive Angriffe. Wichtig ist auch, Sicherheitslösungen ganzheitlich zu denken und verschiedene Faktoren zu kombinieren, statt sich eine einzelne Authentifizierungsmethode zu verlassen.

Ismet Koyun ist CEO und Gründer von KOBIL.(Bild:  Kobil)
Ismet Koyun ist CEO und Gründer von KOBIL.
(Bild: Kobil)

Zunächst müssen die Ansätze jedoch unkompliziert ihren Weg aus der Forschung in die Praxis finden. Dafür braucht es Kooperationen mit innovativen Technologieunternehmen. Der Wormser IT-Sicherheitsspezialist KOBIL integriert gerade die VoiceRadar-Technologie aus Darmstadt in seine Secure SuperApp Plattform, die derzeit in den City-Apps Worms und Istanbul sowie zukünftig in vielen anderen Städten zum Einsatz kommt.

Darüber hinaus sind auch Anstrengungen auf politischer Ebene nötig. In der Gesellschaft muss das Bewusstsein dafür geschärft werden, welche Gefahren Voice Deepfakes bergen und wie sie erkannt werden können. Und es muss ein verlässlicher rechtlicher Rahmen geschaffen werden für den Umgang mit synthetischen Medien. Nur so kann das Vertrauen in digitale Kommunikation dauerhaft bestehen bleiben.

Über den Autor: Ismet Koyun ist CEO und Gründer der KOBIL Gruppe.

(ID:50383683)