KI-Fälschungen sind visuell kaum noch erkennbar Wie IT-Forensiker Deepfakes aufdecken

Ein Gastbeitrag von Dr. Sascha Zmudzinski und Raphael Antonius Frick 6 min Lesedauer

Anbieter zum Thema

Bildmanipulation war früher Expertensache, heute kann mit KI-Tools fast jeder täuschend echte Deepfakes erstellen. Laut TÜV-Verband ist bereits ein Viertel der Nutzer auf KI-generierte Inhalte hereingefallen. IT-Forensiker setzen deshalb auf neue Methoden wie Deep Learning und multimodale Analyse, um Fälschungen aufzudecken.

Die rasante Entwicklung KI-gestützter Manipulationen erschwert die sichere Unterscheidung zwischen Deepfake und echten Medien. In einer Umfrage des TÜV gaben ein Viertel der Befragten an, schon einmal auf KI-generierte Inhalte „hereingefallen“ zu sein.(Bild: ©  LORD - stock.adobe.com)
Die rasante Entwicklung KI-gestützter Manipulationen erschwert die sichere Unterscheidung zwischen Deepfake und echten Medien. In einer Umfrage des TÜV gaben ein Viertel der Befragten an, schon einmal auf KI-generierte Inhalte „hereingefallen“ zu sein.
(Bild: © LORD - stock.adobe.com)

Laut einer aktuellen Nutzerumfrage des TÜV-Verbands ist ca. ein Viertel der Befragten bereits auf KI-generierte Inhalte (Texte, Bilder, Videos, Audio) „hereingefallen“ und war dabei von deren scheinbarer Echtheit überrascht. Über 90 Prozent geben an, dass es immer schwerer wird, echte und KI-manipulierte Inhalte zu unterscheiden.

Für Unternehmen, Sicherheitsbehörden und die Gesellschaft bedeutet die Fälschung digitaler Medien – oder schon der bloße Verdacht darauf – eine zunehmende Bedrohung. Denn mit aktuellen KI‑Bearbeitungstools können etwa bestehende Bilder und Videos tatsächlich nachträglich auf vielfältige Weise verändert oder neu erzeugt werden:

  • Objekte oder Personen lassen sich hinzufügen oder durch „Auffüllen“ entfernen (Inpainting).
  • Abgebildeten Personen kann in Videos mit der Synthese der Stimme eine gefälschte Aussage in den Mund gelegt werden (Audio-Deepfakes per Text-to-Speech oder Voice Conversion).
  • Lippenbewegungen und Mimik lassen sich hierzu passend verändern, damit die Fälschung nicht auffällt (multimodale Talking-Head-Angriffe).
  • Das Gesicht einer Person kann durch das einer anderen Person ersetzt werden (Face Swapping-Deepfakes).
  • Bilder und Videos mit beliebigen Inhalten (Personen, Umgebungen) und beliebigem Stil können komplett neu erzeugt werden (Vollsynthese).

Es ist möglich, einige dieser Tools durch manuelle Texteingaben oder mit Input-Bildbeispielen als Vorlage zu steuern. Die Text-Prompts können dabei auch mit Hilfe eines KI-Sprachmodells erzeugt und optimiert werden, um noch realistischere Ergebnisse zu generieren.

Wie schnell sich KI-Fälschungstools entwickeln, zeigen folgende Beispiele eindrucksvoll:

Evolution von Deepfakes (v.l.n.r.): Stable-Diffusion 1.4 (2022), Stable-Diffusion XL (2023), Flux.1 Dev (2024), Z-Image Turbo (2025).
(Bildquelle: Fraunhofer SIT)

Im ersten Bild (erzeugt mit Stable-Diffusion 1.4 aus dem Jahr 2022) sind noch viele deutliche Artefakte zu sehen: verzerrte Details im Vorder- und Hintergrund, falsche Proportionen der Person und eine falsche Anzahl von dargestellten Gliedmaßen.

Das zweite Bild (Stable Diffusion XL, 2023) wirkt schon wesentlich realistischer, mit stimmigem Licht und besser erkennbaren Objekten und Personen. Es weist jedoch bei genauer Betrachtung weiterhin Fehler in feinen Strukturen sowie nach wie vor eine falsche Fingerzahl an den Händen auf.

Im dritten Bild (Flux.1 Dev, 2024) überzeugen vor allem Beleuchtung, Tiefenschärfe und Bokeh, also die charakteristische Unschärfe im Hintergrund. Burger und Hintergrund erinnern stark an echte Fotos, sodass Laien das Bild kaum noch als KI-generiert identifizieren können. Gleichzeitig erscheinen die Texturen noch relativ flach, während Kontrast und Farbsättigung überbetont sind.

Das vierte Bild (Z-Image Turbo, 2025) wirkt schließlich wie eine typische Smartphone-Aufnahme aus einem Schnellrestaurant. Es stellt eine glaubwürdige Szenerie dar, mit korrekt dargestellten Personen im Hintergrund sowie stimmigen Details und Farben. Eine rein visuelle Unterscheidung von realen Fotos ist kaum mehr zuverlässig möglich und technische Erkennungsverfahren werden notwendig.

Bildforensik zur Analyse der Pixel- und Metadaten

Sind keine sichtbaren Artefakte erkennbar, können Experten mit spezieller Bild- und Videoforensik-Software analysieren, was echt und was gefälscht ist. Hierzu wird seit den 1990er Jahren in Forschung und Technik intensiv an Lösungen gearbeitet, so auch an mehreren Instituten der Fraunhofer Gesellschaft. Traditionelle technische Ansätze der „Multimedia-Forensik“ für Pixeldaten und Metadaten sind u.a.

  • Analyse auf statistische Inkonsistenzen zwischen verschiedenen Bildteilen: Sind die Effekte z.B. der Bildkompression oder des Bild- und Sensorrauschens in verschiedenen Bildteilen signifikant unterschiedlich?
  • Erkennen duplizierter „Copy and Paste“-Bildbereiche: Gibt es detailreiche Bildteile, die sich paarweise viel zu ähnlich sind, um aus der Aufnahme mit einer echten Kamera zu stammen?
  • Detektion, ob das gesamte Bild mehrfach komprimiert wurde: Ist eine Originaldatei evtl. bearbeitet und daher beim erneuten Speichern erneut komprimiert worden?
  • Analyse der Metadaten zur Aufnahmesituation: Passen angebliche Angaben zur Kameragerät, Objektiv, Aufnahmedatum etc. zu denen in anderen Bilddateien oder zu bekannten Kontext-Informationen?
  • Analyse der Dateistruktur: Passt die Reihenfolge typischer Datenbereiche in einer Datei zu ihrer angeblichen Quelle, etwa zur Kamera, Smartphonegerät, Social Media-Client etc.?

Viele dieser modellbasierten Ansätze werden stetig weiterentwickelt und an den Stand in Wissenschaft und Technik angepasst. Sie haben auch in der heutigen Bildforensik ihre Bedeutung, sind jedoch jeweils nur für eine spezifische Angriffsart sensitiv.

Moderne Forensik-Methoden – KI gegen KI

Eine Antwort auf KI-generierte Fälschungen kommt ebenfalls aus der künstlichen Intelligenz.

Forensik-Experten setzen heute auf spezielle Deep Learning-Architekturen, so etwa „Convolutional Neural Networks" (CNN) und „Vision Transformers" (ViT). Die Eignung bestehender Implementierungen und vortrainierter Modelle wird in der Forschung und Tool-Entwicklung durch Experimente mit großen Testdatensätzen bewertet. Diese KI-Ansätze können und müssen stetig mit vielseitigen Trainingsdaten universeller auf unterschiedliche Manipulationstechniken weitertrainiert werden. Darüber hinaus müssen neue Methodiken entwickelt werden, um die Detektion und die Robustheit gegenüber neuen Entwicklungen der Deepfake-Technologie weiter zu verbessern.

Hierzu erstellt man Datensätze selbst, oder nutzt Sammlungen aus dem Internet („In the Wild") von aktiven Forschungsgruppen und Material aus internationalen Forensik-Wettbewerben. Ein weiterer aktueller Ansatz hierzu ist die sogenannte multimodale Analyse: Hierbei werden in Videoclips auch die Tonspur und die Konsistenz zwischen Bild und Ton mittels Deep Learning-Classifiers analysiert.

In Forschungsprojekten entwickelt beispielsweise das Fraunhofer‑Institut für Sichere Informationstechnologie (SIT), auf diese Weise Detektions-Algorithmen stetig weiter und nutzt diese u.a. zur Aufklärung von Desinformation, forensische Untersuchungen und Gutachten.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zur IT-Sicherheit

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Immer auf dem neuesten Stand: Weiterbildung zur Echtheitsprüfung für Bildmaterial

Das zuverlässige Erkennen KI-generierter Fälschungen ist für viele Berufsgruppen unerlässlich. Dazu zählen Sicherheitsbeauftragte, die sich vor Betrugsversuchen mit gefälschten Identitäten schützen müssen, ebenso wie Medienschaffende, die für glaubwürdige Berichterstattung verantwortlich sind. Auch Ermittler sind darauf angewiesen, Bildmaterial als Beweismittel auf Echtheit zu prüfen oder dessen Herkunft, Bearbeitung und Verwendung zu analysieren. Darüber hinaus spielt diese Kompetenz für Mitarbeitende in Behörden und Organisationen der zivilen Sicherheit eine zentrale Rolle, um Desinformation und Fake News wirksam entgegenzutreten.

Wichtig ist, stets auf dem aktuellen Stand zu Angriffstools und forensischen Detektions­ver­fahren zu bleiben. Dazu bieten sich Weiterbildungen wie der dreitägigen Kurs „Echtheitsprüfung für digitale Bild-/Videodaten“ des Fraunhofer SIT an: Das Institut bindet stets aktuelle Forschungsergebnisse in die Kursinhalte ein. Neben den theoretischen Grundlagen lernen Teilnehmende praxisnah in Live-Demos und betreuten PC-Übungen, Bildmaterial selbst auf Echtheit zu prüfen.

Wie das konkret aussehen kann, zeigt folgendes Beispiel einer Live-Demo: Ein Demonstrator aus einem der laufenden Forschungsprojekte zeigt, wie Deepfakes erzeugt und in Echtzeit-detektiert werden können. Wichtig ist es, dass Teilnehmende Deepfake-Angriffe z.B. auf einen Video-Call selbst simulieren und auch die Bildqualität der Angriffe und die Erkennungsraten der Deepfake-Detektion unter verschiedenen Bedingungen selbst testen und „ausreizen“ (siehe Bild).

Live-Demonstrator für Deepfakes (v.l.n.r.): Authentisches Gesicht, Detektions-Heatmap des authentischen Gesichts, Deepfake-Angriff, Detektions-Heatmap des Deepfakes.
(Bildquelle: Fraunhofer SIT)

Weiterbildung wird zum Sicherheitsfaktor in der Medienforensik

Die rasante Entwicklung KI-gestützter Manipulationen erschwert die sichere Unterscheidung zwischen echten und gefälschten Medien. Klassische bildforensische Methoden bleiben wichtig, müssen jedoch zunehmend durch KI-basierte und multimodale Analysen ergänzt werden. Für Behörden, Unternehmen und Medienschaffende ist es daher entscheidend, ihr Fachwissen regelmäßig zu aktualisieren und moderne forensische Werkzeuge sicher einzusetzen, um Manipulation und Desinformation wirksam zu erkennen.

Über die Autoren: Dr. Sascha Zmudzinski und Raphael Antonius Frick sind Wissenschaftler am Fraunhofer‑Institut für Sichere Informationstechnologie (SIT) in Darmstadt in der Abteilung „Media Security and IT Forensics“. Raphael Antonius Frick beschäftigt sich als Teil seiner For­schung mit der Entwicklung neuartiger Erkennungsmethoden für KI-generierte und ma­ni­pu­lier­te Bildern und Videos, sowie mit der multi-modalen Erkennung von Falsch­in­for­ma­ti­o­nen in Sozialen Netzwerken. Sascha Zmudzinski koordiniert das Wei­ter­bil­dungs­an­ge­bot des Instituts hierzu.

(ID:50811727)