Dramatischer Anstieg bei Voice-Angriffen Drei Prinzipien schützen vor KI-gestützten Voice-Angriffen

Ein Gastbeitrag von Julius Muth 4 min Lesedauer

Anbieter zum Thema

Angreifer setzen zunehmend auf KI-gestützte Voice-Angriffe: Sie kom­bi­nie­ren Caller-ID-Spoofing mit Voice Cloning und geben sich als IT-Support oder Bankmitarbeiter aus. Mit der neuen Technologie FOICE lassen sich Stimmen sogar allein aus Fotos erzeugen. Unternehmen sollten deshalb auf Ve­ri­fi­ka­ti­on statt blindem Vertrauen, klare Prozesse für sensible Vorgänge und gezieltes Awareness-Training setzen.

KI-gestützte Voice-Angriffe kombinieren Caller-ID-Spoofing mit Voice Cloning. Neue Technologien wie FOICE erzeugen täuschend echte Stimmen sogar aus Fotos.(Bild: ©  Pakin - stock.adobe.com)
KI-gestützte Voice-Angriffe kombinieren Caller-ID-Spoofing mit Voice Cloning. Neue Technologien wie FOICE erzeugen täuschend echte Stimmen sogar aus Fotos.
(Bild: © Pakin - stock.adobe.com)

Im Juni 2025 traf es Google selbst. Angreifer kompromittierten eine interne Salesforce-Instanz, indem sie sich per Telefon als IT-Support ausgaben. Mitarbeitende wurden zu einer vermeintlich legitimen Konfiguration verleitet und gewährten so Zugriff auf Kontaktdaten zahlreicher Unternehmen. Nicht durch eine technische Schwachstelle, sondern durch Überzeugung am Telefon.

Dieser Angriff steht exemplarisch für einen Wendepunkt in der Bedrohungslandschaft. Was einst als E-Mail-Phishing begann, hat sich zu KI-beschleunigten, telefonie­gestützten Social-Engineering-Angriffen entwickelt, bei denen der Mensch zur primären Angriffsfläche wird.

Dramatischer Anstieg bei Voice-Angriffen

Stimmbasierte Angriffe zählen zu den am schnellsten wachsenden Bedrohungsvektoren. Laut dem CrowdStrike 2025 Global Threat Report stiegen sie zwischen der ersten und zweiten Jah­res­hälf­te 2024 um 442 Prozent. Treiber sind Fortschritte in Sprachsynthese und KI-ge­stütz­ter Per­so­na­li­sie­rung. Angreifer kombinieren zunehmend SMS, E-Mail und Telefonate zu or­ches­t­rier­ten Angriffs­se­quen­zen. Eine typische Abfolge beginnt mit einer SMS-Warnung („Ihr Konto wurde gesperrt"), gefolgt von einem Anruf mit geklonter Stimme und präzise abgestimmten Social Engineering Skripten.

Die finanziellen Schäden sind erheblich. Bereits im ersten Quartal 2025 beliefen sich do­ku­men­tier­te Verluste durch Deepfake-Betrug auf über 200 Millionen US-Dollar. Deloitte prognostiziert ein weltweites Schadensvolumen von bis zu 40 Milliarden US-Dollar bis 2027. Gleichzeitig bleibt die Erkennung alarmierend schwach: In Studien lag die menschliche Erkennungsrate hoch­wer­ti­ger Deepfakes bei nur rund 25 Prozent.

Caller-ID-Spoofing: Die perfekte Tarnung

Die Kombination aus Caller-ID-Spoofing und Voice Cloning zählt 2025 zu den effektivsten Social Engineering Methoden. Angreifer manipulieren gezielt die Anruferkennung, sodass beim An­ge­ru­fe­nen Namen bekannter Institutionen wie „Deutsche Bank“, „Sparkasse“ oder „Microsoft Support“ im Display erscheinen. Dadurch steigt die Wahrscheinlichkeit, dass Anrufe an­ge­nom­men und als legitim wahrgenommen werden.

Dieses anfängliche Vertrauen ist entscheidend. Laut CrowdStrike lag die durchschnittliche Breakout Time (die Zeit bis zur lateralen Bewegung im Netzwerk) 2024 bei nur 48 Minuten, der schnellste dokumentierte Fall bei 51 Sekunden. In europäischen Organisationen wurden Mitarbeitende so unter anderem zur Preisgabe von Zugangsdaten, zur Freigabe von Fi­nanz­trans­ak­ti­o­nen oder zur Offenlegung interner Abläufe bewegt.

Voice Cloning: Drei Sekunden genügen

Voice Cloning verstärkt diese Wirkung erheblich. Laut einer McAfee-Studie reichen bereits drei Sekunden Audio, um eine Stimmkopie mit 85 Prozent Übereinstimmung zu erzeugen. In ei­ner Befragung von 7.054 Personen aus sieben Ländern gaben 25 Prozent an, bereits Kontakt mit Voice-Cloning-Betrug gehabt zu haben, 77 Prozent der Betroffenen erlitten finanzielle Verluste.

Neue Bedrohung: FOICE - Die Stimme aus dem Foto

Eine besonders kritische Entwicklung ist die Face-to-Voice-Synthese (FOICE). Diese Technik erzeugt realistische Stimmen allein aus einem Foto. Stimmproben sind nicht mehr nötig. Das Modell leitet Tonhöhe, Klangfarbe und Sprechstil aus Gesichtsmerkmalen ab.

FOICE-Audio kann bestehende Stimm­verifikations­systeme umgehen und wird von modernen Deepfake-Detektoren nur unzuverlässig erkannt. Soziale Medien liefern Angreifern dabei reichhaltiges Material: Fotos, Videos, Sprachaufnahmen und persönliche Kontexte für glaub­wür­di­ge Imitationen.

Was diese Entwicklungen für Organisationen bedeuten

Über alle beobachteten Fälle hinweg zeigt sich ein konsistentes Muster: Angreifer verlagern sich von technischen Exploits zu menschlichen Schwachstellen. Das Telefon steht heute im Zentrum fortgeschrittener Social Engineering Operationen.

Gartner prognostiziert, dass bis 2026 30 Prozent der Unternehmen eigenständige Identitäts­veri­fi­ka­ti­ons- und Authentifizierungslösungen nicht mehr als zuverlässig betrachtet werden. Außerdem sind 79 Prozent der Angriffe zur Erlangung des initialen Zugriffs mittlerweile malware-frei - traditionelle Schutzmechanismen greifen nicht mehr.

Wie können sich Organisationen schützen?

Da die technische Deepfake-Detektion strukturelle Grenzen hat, müssen Unternehmen den Fokus auf Sicherheitskultur, widerstandsfähige Prozesse und klare Verifizierungs­mechanismen legen. Der wirkungsvollste Hebel bleibt der Mensch. Vorausgesetzt, er ist vorbereitet.

Drei Prinzipien entscheiden heute über die Widerstandsfähigkeit von Organisationen:

  • Verifikation schlägt Vertrauen: Stimmen und Anruferkennungen sind kein Identitätsnachweis mehr.
  • Prozesse schlagen Intuition: Klare Abläufe, Vier-Augen-Prinzipien und Wartezeiten reduzieren Fehlentscheidungen.
  • Training schlägt Detektion: Realistische Simulationen und Verhaltensschulung erhöhen die Reaktionsfähigkeit dort, wo Technik an Grenzen stößt.

Jeder Mensch ist eine Firewall

Die Kombination aus FOICE, Caller-ID-Spoofing und 442 Prozent Anstieg bei Vishing-Angriffen mag bedrohlich wirken, doch Awareness macht den Unterschied. Jeder Mensch, der ein suspektes Telefonat kritisch hinterfragt, der zurückruft, statt sofort zu reagieren, ist eine lebende Firewall.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung
KI macht Angriffe schneller, persönlicher und glaubwürdiger als je zuvor. Doch ihre größte Stärke ist zugleich ihre Schwäche: Sie folgt Mustern.

Julius Muth, Co-Founder und CEO, revel8

Immer mehr Unternehmen investieren nicht nur in Technologie, sondern in men­schen­zen­trier­te Sicherheitsstrategien. Die Zukunft der Cybersicherheit liegt nicht ausschließlich in der Detektion von Deepfakes, sondern in der Resilienz der Menschen, die ihnen begegnen. Denn eines bleibt trotz aller KI-Fortschritte wahr: Ein wachsamer, geschulter Mensch bleibt der wirksamste Schutz.

Über den Autor: Julius Muth ist Mitgründer und CEO des Cybersecurity-Startups revel8, das KI-gestützte Angriffssimulationen für Unternehmen entwickelt. Zuvor war er im Growth Team beim Decacorn Celonis tätig. Seine Mission: Awareness-Training neu denken - praxisnah, skalierbar, menschlich und “made in Germany”.

(ID:50784731)