Bildmanipulation war früher Expertensache, heute kann mit KI-Tools fast jeder täuschend echte Deepfakes erstellen. Laut TÜV-Verband ist bereits ein Viertel der Nutzer auf KI-generierte Inhalte hereingefallen. IT-Forensiker setzen deshalb auf neue Methoden wie Deep Learning und multimodale Analyse, um Fälschungen aufzudecken.
Die rasante Entwicklung KI-gestützter Manipulationen erschwert die sichere Unterscheidung zwischen Deepfake und echten Medien. In einer Umfrage des TÜV gaben ein Viertel der Befragten an, schon einmal auf KI-generierte Inhalte „hereingefallen“ zu sein.
Laut einer aktuellen Nutzerumfrage des TÜV-Verbands ist ca. ein Viertel der Befragten bereits auf KI-generierte Inhalte (Texte, Bilder, Videos, Audio) „hereingefallen“ und war dabei von deren scheinbarer Echtheit überrascht. Über 90 Prozent geben an, dass es immer schwerer wird, echte und KI-manipulierte Inhalte zu unterscheiden.
Für Unternehmen, Sicherheitsbehörden und die Gesellschaft bedeutet die Fälschung digitaler Medien – oder schon der bloße Verdacht darauf – eine zunehmende Bedrohung. Denn mit aktuellen KI‑Bearbeitungstools können etwa bestehende Bilder und Videos tatsächlich nachträglich auf vielfältige Weise verändert oder neu erzeugt werden:
Objekte oder Personen lassen sich hinzufügen oder durch „Auffüllen“ entfernen (Inpainting).
Abgebildeten Personen kann in Videos mit der Synthese der Stimme eine gefälschte Aussage in den Mund gelegt werden (Audio-Deepfakes per Text-to-Speech oder Voice Conversion).
Lippenbewegungen und Mimik lassen sich hierzu passend verändern, damit die Fälschung nicht auffällt (multimodale Talking-Head-Angriffe).
Das Gesicht einer Person kann durch das einer anderen Person ersetzt werden (Face Swapping-Deepfakes).
Bilder und Videos mit beliebigen Inhalten (Personen, Umgebungen) und beliebigem Stil können komplett neu erzeugt werden (Vollsynthese).
Es ist möglich, einige dieser Tools durch manuelle Texteingaben oder mit Input-Bildbeispielen als Vorlage zu steuern. Die Text-Prompts können dabei auch mit Hilfe eines KI-Sprachmodells erzeugt und optimiert werden, um noch realistischere Ergebnisse zu generieren.
Wie schnell sich KI-Fälschungstools entwickeln, zeigen folgende Beispiele eindrucksvoll:
Evolution von Deepfakes (v.l.n.r.): Stable-Diffusion 1.4 (2022), Stable-Diffusion XL (2023), Flux.1 Dev (2024), Z-Image Turbo (2025).
(Bildquelle: Fraunhofer SIT)
Im ersten Bild (erzeugt mit Stable-Diffusion 1.4 aus dem Jahr 2022) sind noch viele deutliche Artefakte zu sehen: verzerrte Details im Vorder- und Hintergrund, falsche Proportionen der Person und eine falsche Anzahl von dargestellten Gliedmaßen.
Das zweite Bild (Stable Diffusion XL, 2023) wirkt schon wesentlich realistischer, mit stimmigem Licht und besser erkennbaren Objekten und Personen. Es weist jedoch bei genauer Betrachtung weiterhin Fehler in feinen Strukturen sowie nach wie vor eine falsche Fingerzahl an den Händen auf.
Im dritten Bild (Flux.1 Dev, 2024) überzeugen vor allem Beleuchtung, Tiefenschärfe und Bokeh, also die charakteristische Unschärfe im Hintergrund. Burger und Hintergrund erinnern stark an echte Fotos, sodass Laien das Bild kaum noch als KI-generiert identifizieren können. Gleichzeitig erscheinen die Texturen noch relativ flach, während Kontrast und Farbsättigung überbetont sind.
Das vierte Bild (Z-Image Turbo, 2025) wirkt schließlich wie eine typische Smartphone-Aufnahme aus einem Schnellrestaurant. Es stellt eine glaubwürdige Szenerie dar, mit korrekt dargestellten Personen im Hintergrund sowie stimmigen Details und Farben. Eine rein visuelle Unterscheidung von realen Fotos ist kaum mehr zuverlässig möglich und technische Erkennungsverfahren werden notwendig.
Sind keine sichtbaren Artefakte erkennbar, können Experten mit spezieller Bild- und Videoforensik-Software analysieren, was echt und was gefälscht ist. Hierzu wird seit den 1990er Jahren in Forschung und Technik intensiv an Lösungen gearbeitet, so auch an mehreren Instituten der Fraunhofer Gesellschaft. Traditionelle technische Ansätze der „Multimedia-Forensik“ für Pixeldaten und Metadaten sind u.a.
Analyse auf statistische Inkonsistenzen zwischen verschiedenen Bildteilen: Sind die Effekte z.B. der Bildkompression oder des Bild- und Sensorrauschens in verschiedenen Bildteilen signifikant unterschiedlich?
Erkennen duplizierter „Copy and Paste“-Bildbereiche: Gibt es detailreiche Bildteile, die sich paarweise viel zu ähnlich sind, um aus der Aufnahme mit einer echten Kamera zu stammen?
Detektion, ob das gesamte Bild mehrfach komprimiert wurde: Ist eine Originaldatei evtl. bearbeitet und daher beim erneuten Speichern erneut komprimiert worden?
Analyse der Metadaten zur Aufnahmesituation: Passen angebliche Angaben zur Kameragerät, Objektiv, Aufnahmedatum etc. zu denen in anderen Bilddateien oder zu bekannten Kontext-Informationen?
Analyse der Dateistruktur: Passt die Reihenfolge typischer Datenbereiche in einer Datei zu ihrer angeblichen Quelle, etwa zur Kamera, Smartphonegerät, Social Media-Client etc.?
Viele dieser modellbasierten Ansätze werden stetig weiterentwickelt und an den Stand in Wissenschaft und Technik angepasst. Sie haben auch in der heutigen Bildforensik ihre Bedeutung, sind jedoch jeweils nur für eine spezifische Angriffsart sensitiv.
Eine Antwort auf KI-generierte Fälschungen kommt ebenfalls aus der künstlichen Intelligenz.
Forensik-Experten setzen heute auf spezielle Deep Learning-Architekturen, so etwa „Convolutional Neural Networks" (CNN) und „Vision Transformers" (ViT). Die Eignung bestehender Implementierungen und vortrainierter Modelle wird in der Forschung und Tool-Entwicklung durch Experimente mit großen Testdatensätzen bewertet. Diese KI-Ansätze können und müssen stetig mit vielseitigen Trainingsdaten universeller auf unterschiedliche Manipulationstechniken weitertrainiert werden. Darüber hinaus müssen neue Methodiken entwickelt werden, um die Detektion und die Robustheit gegenüber neuen Entwicklungen der Deepfake-Technologie weiter zu verbessern.
Hierzu erstellt man Datensätze selbst, oder nutzt Sammlungen aus dem Internet („In the Wild") von aktiven Forschungsgruppen und Material aus internationalen Forensik-Wettbewerben. Ein weiterer aktueller Ansatz hierzu ist die sogenannte multimodale Analyse: Hierbei werden in Videoclips auch die Tonspur und die Konsistenz zwischen Bild und Ton mittels Deep Learning-Classifiers analysiert.
In Forschungsprojekten entwickelt beispielsweise das Fraunhofer‑Institut für Sichere Informationstechnologie (SIT), auf diese Weise Detektions-Algorithmen stetig weiter und nutzt diese u.a. zur Aufklärung von Desinformation, forensische Untersuchungen und Gutachten.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Immer auf dem neuesten Stand: Weiterbildung zur Echtheitsprüfung für Bildmaterial
Das zuverlässige Erkennen KI-generierter Fälschungen ist für viele Berufsgruppen unerlässlich. Dazu zählen Sicherheitsbeauftragte, die sich vor Betrugsversuchen mit gefälschten Identitäten schützen müssen, ebenso wie Medienschaffende, die für glaubwürdige Berichterstattung verantwortlich sind. Auch Ermittler sind darauf angewiesen, Bildmaterial als Beweismittel auf Echtheit zu prüfen oder dessen Herkunft, Bearbeitung und Verwendung zu analysieren. Darüber hinaus spielt diese Kompetenz für Mitarbeitende in Behörden und Organisationen der zivilen Sicherheit eine zentrale Rolle, um Desinformation und Fake News wirksam entgegenzutreten.
Wichtig ist, stets auf dem aktuellen Stand zu Angriffstools und forensischen Detektionsverfahren zu bleiben. Dazu bieten sich Weiterbildungen wie der dreitägigen Kurs „Echtheitsprüfung für digitale Bild-/Videodaten“ des Fraunhofer SIT an: Das Institut bindet stets aktuelle Forschungsergebnisse in die Kursinhalte ein. Neben den theoretischen Grundlagen lernen Teilnehmende praxisnah in Live-Demos und betreuten PC-Übungen, Bildmaterial selbst auf Echtheit zu prüfen.
Wie das konkret aussehen kann, zeigt folgendes Beispiel einer Live-Demo: Ein Demonstrator aus einem der laufenden Forschungsprojekte zeigt, wie Deepfakes erzeugt und in Echtzeit-detektiert werden können. Wichtig ist es, dass Teilnehmende Deepfake-Angriffe z.B. auf einen Video-Call selbst simulieren und auch die Bildqualität der Angriffe und die Erkennungsraten der Deepfake-Detektion unter verschiedenen Bedingungen selbst testen und „ausreizen“ (siehe Bild).
Live-Demonstrator für Deepfakes (v.l.n.r.): Authentisches Gesicht, Detektions-Heatmap des authentischen Gesichts, Deepfake-Angriff, Detektions-Heatmap des Deepfakes.
Weiterbildung wird zum Sicherheitsfaktor in der Medienforensik
Die rasante Entwicklung KI-gestützter Manipulationen erschwert die sichere Unterscheidung zwischen echten und gefälschten Medien. Klassische bildforensische Methoden bleiben wichtig, müssen jedoch zunehmend durch KI-basierte und multimodale Analysen ergänzt werden. Für Behörden, Unternehmen und Medienschaffende ist es daher entscheidend, ihr Fachwissen regelmäßig zu aktualisieren und moderne forensische Werkzeuge sicher einzusetzen, um Manipulation und Desinformation wirksam zu erkennen.
Über die Autoren: Dr. Sascha Zmudzinski und Raphael Antonius Frick sind Wissenschaftler am Fraunhofer‑Institut für Sichere Informationstechnologie (SIT) in Darmstadt in der Abteilung „Media Security and IT Forensics“. Raphael Antonius Frick beschäftigt sich als Teil seiner Forschung mit der Entwicklung neuartiger Erkennungsmethoden für KI-generierte und manipulierte Bildern und Videos, sowie mit der multi-modalen Erkennung von Falschinformationen in Sozialen Netzwerken. Sascha Zmudzinski koordiniert das Weiterbildungsangebot des Instituts hierzu.