Angreifer setzen zunehmend auf KI-gestützte Voice-Angriffe: Sie kombinieren Caller-ID-Spoofing mit Voice Cloning und geben sich als IT-Support oder Bankmitarbeiter aus. Mit der neuen Technologie FOICE lassen sich Stimmen sogar allein aus Fotos erzeugen. Unternehmen sollten deshalb auf Verifikation statt blindem Vertrauen, klare Prozesse für sensible Vorgänge und gezieltes Awareness-Training setzen.
KI-gestützte Voice-Angriffe kombinieren Caller-ID-Spoofing mit Voice Cloning. Neue Technologien wie FOICE erzeugen täuschend echte Stimmen sogar aus Fotos.
Im Juni 2025 traf es Google selbst. Angreifer kompromittierten eine interne Salesforce-Instanz, indem sie sich per Telefon als IT-Support ausgaben. Mitarbeitende wurden zu einer vermeintlich legitimen Konfiguration verleitet und gewährten so Zugriff auf Kontaktdaten zahlreicher Unternehmen. Nicht durch eine technische Schwachstelle, sondern durch Überzeugung am Telefon.
Dieser Angriff steht exemplarisch für einen Wendepunkt in der Bedrohungslandschaft. Was einst als E-Mail-Phishing begann, hat sich zu KI-beschleunigten, telefoniegestützten Social-Engineering-Angriffen entwickelt, bei denen der Mensch zur primären Angriffsfläche wird.
Stimmbasierte Angriffe zählen zu den am schnellsten wachsenden Bedrohungsvektoren. Laut dem CrowdStrike 2025 Global Threat Report stiegen sie zwischen der ersten und zweiten Jahreshälfte 2024 um 442 Prozent. Treiber sind Fortschritte in Sprachsynthese und KI-gestützter Personalisierung. Angreifer kombinieren zunehmend SMS, E-Mail und Telefonate zu orchestrierten Angriffssequenzen. Eine typische Abfolge beginnt mit einer SMS-Warnung („Ihr Konto wurde gesperrt"), gefolgt von einem Anruf mit geklonter Stimme und präzise abgestimmten Social Engineering Skripten.
Die finanziellen Schäden sind erheblich. Bereits im ersten Quartal 2025 beliefen sich dokumentierte Verluste durch Deepfake-Betrug auf über 200 Millionen US-Dollar. Deloitte prognostiziert ein weltweites Schadensvolumen von bis zu 40 Milliarden US-Dollar bis 2027. Gleichzeitig bleibt die Erkennung alarmierend schwach: In Studien lag die menschliche Erkennungsrate hochwertiger Deepfakes bei nur rund 25 Prozent.
Die Kombination aus Caller-ID-Spoofing und Voice Cloning zählt 2025 zu den effektivsten Social Engineering Methoden. Angreifer manipulieren gezielt die Anruferkennung, sodass beim Angerufenen Namen bekannter Institutionen wie „Deutsche Bank“, „Sparkasse“ oder „Microsoft Support“ im Display erscheinen. Dadurch steigt die Wahrscheinlichkeit, dass Anrufe angenommen und als legitim wahrgenommen werden.
Dieses anfängliche Vertrauen ist entscheidend. Laut CrowdStrike lag die durchschnittliche Breakout Time (die Zeit bis zur lateralen Bewegung im Netzwerk) 2024 bei nur 48 Minuten, der schnellste dokumentierte Fall bei 51 Sekunden. In europäischen Organisationen wurden Mitarbeitende so unter anderem zur Preisgabe von Zugangsdaten, zur Freigabe von Finanztransaktionen oder zur Offenlegung interner Abläufe bewegt.
Voice Cloning: Drei Sekunden genügen
Voice Cloning verstärkt diese Wirkung erheblich. Laut einer McAfee-Studie reichen bereits drei Sekunden Audio, um eine Stimmkopie mit 85 Prozent Übereinstimmung zu erzeugen. In einer Befragung von 7.054 Personen aus sieben Ländern gaben 25 Prozent an, bereits Kontakt mit Voice-Cloning-Betrug gehabt zu haben, 77 Prozent der Betroffenen erlitten finanzielle Verluste.
Eine besonders kritische Entwicklung ist die Face-to-Voice-Synthese (FOICE). Diese Technik erzeugt realistische Stimmen allein aus einem Foto. Stimmproben sind nicht mehr nötig. Das Modell leitet Tonhöhe, Klangfarbe und Sprechstil aus Gesichtsmerkmalen ab.
FOICE-Audio kann bestehende Stimmverifikationssysteme umgehen und wird von modernen Deepfake-Detektoren nur unzuverlässig erkannt. Soziale Medien liefern Angreifern dabei reichhaltiges Material: Fotos, Videos, Sprachaufnahmen und persönliche Kontexte für glaubwürdige Imitationen.
Was diese Entwicklungen für Organisationen bedeuten
Über alle beobachteten Fälle hinweg zeigt sich ein konsistentes Muster: Angreifer verlagern sich von technischen Exploits zu menschlichen Schwachstellen. Das Telefon steht heute im Zentrum fortgeschrittener Social Engineering Operationen.
Gartner prognostiziert, dass bis 2026 30 Prozent der Unternehmen eigenständige Identitätsverifikations- und Authentifizierungslösungen nicht mehr als zuverlässig betrachtet werden. Außerdem sind 79 Prozent der Angriffe zur Erlangung des initialen Zugriffs mittlerweile malware-frei - traditionelle Schutzmechanismen greifen nicht mehr.
Da die technische Deepfake-Detektion strukturelle Grenzen hat, müssen Unternehmen den Fokus auf Sicherheitskultur, widerstandsfähige Prozesse und klare Verifizierungsmechanismen legen. Der wirkungsvollste Hebel bleibt der Mensch. Vorausgesetzt, er ist vorbereitet.
Drei Prinzipien entscheiden heute über die Widerstandsfähigkeit von Organisationen:
Verifikation schlägt Vertrauen: Stimmen und Anruferkennungen sind kein Identitätsnachweis mehr.
Prozesse schlagen Intuition: Klare Abläufe, Vier-Augen-Prinzipien und Wartezeiten reduzieren Fehlentscheidungen.
Training schlägt Detektion: Realistische Simulationen und Verhaltensschulung erhöhen die Reaktionsfähigkeit dort, wo Technik an Grenzen stößt.
Jeder Mensch ist eine Firewall
Die Kombination aus FOICE, Caller-ID-Spoofing und 442 Prozent Anstieg bei Vishing-Angriffen mag bedrohlich wirken, doch Awareness macht den Unterschied. Jeder Mensch, der ein suspektes Telefonat kritisch hinterfragt, der zurückruft, statt sofort zu reagieren, ist eine lebende Firewall.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
KI macht Angriffe schneller, persönlicher und glaubwürdiger als je zuvor. Doch ihre größte Stärke ist zugleich ihre Schwäche: Sie folgt Mustern.
Julius Muth, Co-Founder und CEO, revel8
Immer mehr Unternehmen investieren nicht nur in Technologie, sondern in menschenzentrierte Sicherheitsstrategien. Die Zukunft der Cybersicherheit liegt nicht ausschließlich in der Detektion von Deepfakes, sondern in der Resilienz der Menschen, die ihnen begegnen. Denn eines bleibt trotz aller KI-Fortschritte wahr: Ein wachsamer, geschulter Mensch bleibt der wirksamste Schutz.
Über den Autor: Julius Muth ist Mitgründer und CEO des Cybersecurity-Startups revel8, das KI-gestützte Angriffssimulationen für Unternehmen entwickelt. Zuvor war er im Growth Team beim Decacorn Celonis tätig. Seine Mission: Awareness-Training neu denken - praxisnah, skalierbar, menschlich und “made in Germany”.