Im selben rasanten Tempo, in dem künstliche Intelligenz (KI) Fortschritte macht, nehmen auch die Cyberbedrohungen in Zusammenhang mit KI zu. Immer stärker im Fokus: Voice Deepfakes, also synthetisch erzeugte Audioaufnahmen, die menschliche Stimmen nachahmen. Mit welchen Technologien lässt sich auf diese bedrohliche Entwicklung reagieren?
Modernsten Text-to-Speech- und Voice-Conversion-Tools reichen schon wenige Sekunden Sprachaufnahmen einer Person, um daraus eine überzeugende Imitation zu erstellen.
(Bild: lassedesignen - stock.adobe.com)
Täuschend echte Stimmenfälschungen sind mittlerweile möglich – und das ohne großen Aufwand und tiefes technisches Wissen. Der KI reichen wenige Sekunden mit Sprachaufnahmen einer Person, um daraus – mit Technologien wie Text-to-Speech (TTS) und Voice Conversion (VC) – eine überzeugende Imitation zu erstellen. Diese Sprachaufnahmen sind leicht zu organisieren – etwa durch Sprachnachrichten in Messenger-Diensten, öffentlich zugängliche Interviews oder wenn jemand an einem Webinar oder virtuellen Meeting teilnimmt und dort spricht.
Die Gefahr durch Voice Deepfakes ist längst real und darf keinesfalls unterschätzt werden. Das beginnt bei bekannten Betrugsmaschen wie dem „Enkeltrick“. Es wird immer unmöglicher, KI-generierte Stimmen von echten zu unterscheiden – selbst für enge Familienangehörige der imitierten Person. Kriminelle haben oft leichtes Spiel, sich am Telefon Geld oder Passwörter zu ergaunern.
Auch auf Unternehmensebene wird Identitätsdiebstahl zur Bedrohung. Es wurden schon Cyberangriffe publik, bei denen Mitarbeiter auf synthetische Stimmen hereinfielen und sensible Unternehmensdaten oder Geld weitergaben. Zu überzeugend war der vermeintliche Chef im Call.
Besonders gefährlich ist es bei Personen des öffentlichen Lebens. Werden Politikern Dinge in den Mund gelegt, die sie nie gesagt haben, erleichtert das Falschinformation, Manipulation und Propaganda. Mit böswilliger (politischer) Absicht eingesetzt, unterhöhlen Deepfakes die Demokratie. Mehr noch: Sie lassen die Grenze zwischen Wahrheit und Lüge verschwimmen – wie sollen wir uns noch sicher sein, was wir glauben können?
Warum sind Voice Deepfakes so schwer zu erkennen und abzuwehren?
Herkömmliche Methoden zur Verifizierung reichen nicht mehr aus, um KI-generierte Fälschungen zu erkennen. Die Qualität der synthetischen Stimmen wird kontinuierlich – und immer schneller – besser. Bis vor Kurzem war es selbst für Laien noch leicht herauszuhören, ob eine Stimme künstlich erzeugt wurde. Doch die KI-Modelle haben in den letzten Jahren und Monaten einen Technologiesprung gemacht. Sie erzeugen mittlerweile nicht nur verständliche Sprache, sondern ahmen auch subtile Eigenschaften menschlicher Stimmen nach: Betonungen, spezifische Sprechrhythmen und -pausen, charakteristische Stimmfarben.
Das ist ein ernstes Problem für die Informationssicherheit und das Vertrauen in digitale Kommunikation. Verfahren, die eigentlich zu mehr Cybersicherheit beitragen sollen, wie die Authentifizierung über die Stimme (Voice-ID), werden selbst zum Sicherheitsrisiko. Es zeigt aber auch, dass wir auf KI angewiesen sind, um Bedrohungen durch KI abzuwehren. Je fortschrittlicher und raffinierter die Technologie hinter Cyberangriffen, desto besser, schneller und moderner muss die Technik sein, die wir entgegensetzen.
Welche Ansätze zur Erkennung von Voice-Deepfakes gibt es?
Die gute Nachricht: Wirksame Technologien zur Erkennung von Audio-Deepfakes gibt es bereits. Weltweit entwickeln Forscher Methoden, um synthetische von authentischen Stimmen zu unterscheiden. Bei fast allen Ansätzen kommt KI zum Einsatz, um das Aufspüren von Fakes zu automatisieren. Künstliche neuronale Netze werden mit großen Datensätzen echter und geklonter Stimmen trainiert. So lernen die Systeme mit der Zeit, subtile Unterschiede zu erkennen. Einige Ansätze nutzen zudem Akustik und spektrografische Analysen. Dabei wird das Frequenzspektrum von Audiodaten untersucht, um unnatürliche Muster zu erkennen.
An der TU Darmstadt forscht ein Team um Prof. Dr. Ahmad-Reza Sadeghi an einer KI-gestützten Deepfake-Aufspürung.
(Bild: TU Darmstadt)
Andere Forschungen setzen vor allem da an, wo die Fälschungen zuletzt immer besser wurden: bei biometrischen Merkmalen. Denn trotz aller Fortschritte fehlen KI-generierten Stimmen bestimmte feine Details, die menschliche Sprache auszeichnen. Kaum wahrnehmbare Variationen werden zum Beispiel durch Atmung, Muskelanspannung und Emotionen beeinflusst. Am vielversprechendsten sind die Ansätze, die alle diese Methoden kombinieren.
Auch an der Technischen Universität Darmstadt forscht ein Team um Prof. Dr. Ahmad-Reza Sadeghi seit Jahren an einer KI-gestützten Deepfake-Aufspürung. „Bisherige Erkennungssysteme stoßen immer mehr an ihre Grenzen. Aber selbst fortschrittlichste KI-Systeme haben Schwierigkeiten, die Variabilität menschlicher Stimmen zu reproduzieren“, so der Professor für Cybersecurity. „Natürliche Sprache ist nicht immer gleich. Sie enthält zum Beispiel zeitliche Inkonsistenzen und Tonhöhenschwankungen, die durch Emotionen, physische Anstrengung und Gesprächsdynamik beeinflusst werden. Diese minimalen Abweichungen können wir erkennen.“
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Das an der TU Darmstadt entwickelte „VoiceRadar“-Modell basiert auf maschinellem Lernen und Deep-Learning-Algorithmen, ist aber auch von Modellierungsansätzen aus der Physik inspiriert. Ähnlich wie bei einem Radarsystem nutzt es Schwingungen und den Doppler-Effekt, um Mikro-Frequenzen in Sprachaufnahmen zu analysieren. So lassen sich Stimmen in einzigartige Muster zerlegen. Damit ist es wesentlich zuverlässiger möglich, Deepfakes zu erkennen und menschliche Stimmen als solche zu verifizieren.
Die Forschung muss mit der schnellen Entwicklung von KI-Technologien Schritt zu halten – es ist ein Wettlauf zwischen neuen Generierungstechniken und besseren Erkennungsmethoden. Daher ist es entscheidend, dass Lösungen möglichst flexibel und generalisierbar sind. Dann bieten sie Widerstand gegen immer neue adaptive Angriffe. Wichtig ist auch, Sicherheitslösungen ganzheitlich zu denken und verschiedene Faktoren zu kombinieren, statt sich eine einzelne Authentifizierungsmethode zu verlassen.
Ismet Koyun ist CEO und Gründer von KOBIL.
(Bild: Kobil)
Zunächst müssen die Ansätze jedoch unkompliziert ihren Weg aus der Forschung in die Praxis finden. Dafür braucht es Kooperationen mit innovativen Technologieunternehmen. Der Wormser IT-Sicherheitsspezialist KOBIL integriert gerade die VoiceRadar-Technologie aus Darmstadt in seine Secure SuperApp Plattform, die derzeit in den City-Apps Worms und Istanbul sowie zukünftig in vielen anderen Städten zum Einsatz kommt.
Darüber hinaus sind auch Anstrengungen auf politischer Ebene nötig. In der Gesellschaft muss das Bewusstsein dafür geschärft werden, welche Gefahren Voice Deepfakes bergen und wie sie erkannt werden können. Und es muss ein verlässlicher rechtlicher Rahmen geschaffen werden für den Umgang mit synthetischen Medien. Nur so kann das Vertrauen in digitale Kommunikation dauerhaft bestehen bleiben.
Über den Autor: Ismet Koyun ist CEO und Gründer der KOBIL Gruppe.