Deep Fake: Wenn KI Bilder und Stimmen simuliert

Stand: 25.06.2022, 12:53 Uhr

Berlins Regierende Bürgermeisterin Franziska Giffey ist offensichtlich auf einen KI-Betrug reingefallen: Sie hat in einer Videokonferenz mit einem Deep Fake-Klitschko gesprochen. WDR-Digitalexperte Jörg Schieb erklärt, was hinter dieser Technologie steckt und was sie kann.

Von Jörg Schieb

Alle Befürchtungen haben sich bewahrheitet: Früher oder später, das war abzusehen, würden die sich rasant entwickelnden KI-Technologien zur Manipulation bewegter Bilder auch auf dem politischen Parkett missbraucht. Berlins Regierende Bürgermeisterin Franziska Giffey (SPD) dachte, sie spricht mit Vitali Klitschko. Denn was sie auf dem Bildschirm der Videokonferenz sah und hörte, war allem Anschein nach der Bürgermeister von Kiew.

Doch wie sich herausstellte, war es offensichtlich eine Deep Fake-Attacke. Der Gesprächsverlauf deutet eindeutig darauf hin. Der Staatsschutz ermittelt.

KI erzeugt verblüffend echt aussehende Bilder

Möglich ist das durch Deep-Fake-Technologie. Deep, weil "Deep Learning" dahintersteckt, eine besondere Form der Künstlichen Intelligenz. Hier lernen KI-Systeme durch ausgiebige Beobachtung, zum Beispiel wie sich eine Person bewegt, welche Mimik sie benutzt, wie sie spricht. Nach der "Lernphase" ist so ein System in der Lage, die Person verblüffend gut nachzuahmen – in einem Video. Und "Fake" – weil es eine Fälschung ist.

Ein Bildschirm mit Fake-Obama.

Ein Schauspieler spricht, die KI erzeugt live den passenden Fake-Obama

Schon seit Jahren arbeiten Forscher an dieser Technologie. Das bekannteste, weil erste Beispiel dafür, dass sie funktioniert, ist zweifellos ein Projekt der Washington University. In einer offiziell wirkenden Rede Exdes -US-Präsidenten Barack Obama sagte er Dinge, die sich echt anhören und auch echt aussehen – aber eine komplette Fälschung sind. Denn selbst, wenn Barack Obama es insgeheim denken mag – er würde wohl nie öffentlich sagen, dass "Donald Trump ein Vollidiot ist". Im Deep Fake-Video aber schon.

Apps: Deep Fakes als Pop-Kultur

Foto von einem Bildschirm, darauf zu sehen ist eine Person in einer Iron Man-Rüstung.

Mit Fake-Apps kann heute schon jeder Fake-Videos erstellen

Smartphone-Nutzer kennen heute etliche Apps, mit denen man "Face Swapping" betreiben kann: das eigene Gesicht in eine berühmte Filmsequenz montieren oder das eigene Kinderfoto, das plötzlich animiert wird – und zu einem aktuellen Song singt. Das alles sind Deep-Fake-Technologien. Sie sind heute bereits in der Popkultur angekommen – so einfach lassen sie sich anwenden.

Die Bildqualität der Deep Fakes solcher Apps ist meist miserabel. Denn solche Bilder lassen sich schneller berechnen – und man sieht die möglichen Fehler nicht. Um das Ganze auf Top-Niveau zu heben, braucht es mehr Vorbereitungszeit, bessere KI-Technologie, leistungsfähigere Server und insgesamt mehr Aufwand. Für eine 4-EUR-App lohnt sich das nicht. Für Hollywood oder einen Deep-Fake-Angriff auf politischer Ebene allerdings schon.

Dieser Deep Fake war aufwändig

Und genau einen solchen Fall haben wir hier offensichtlich. Die Bildqualität einer Videokonferenz ist nicht hollywood-like, sondern in der Regel auch schlecht. Das macht es einfacher, live solche Deep Fakes zu erzeugen.

Trotzdem ist ein hoher Aufwand nötig, denn in einer Videokonferenz müssen die Fake-Bilder live erzeugt werden – inklusive dem gesprochenen Wort. Man darf davon ausgehen, dass es sich hier nicht um einen (schlechten) Schülerstreich handelt, sondern um eine aufwändige Deep-Fake-Aktion, hinter der vermutlich russische Kräfte stecken dürften - nur sie haben Interesse an der mit einer solchen Aktion verbundenen Verwirrung.

Stimmen nachahmen: Alexa liest mit der Stimme der Oma

Vorstellung der Software Adobe Voco, auf einer Leinwand ist eine Tonspur zu sehen.

Adobe tüftelt an einer Software, die mit beliebiger Stimme alles sagen kann

Auch Stimmen lassen sich mit Deep Fake imitieren. Schon lange arbeitet Hersteller Adobe an einer Software, die jede Stimme nachahmen kann. Dazu muss sich die KI lediglich 20 Minuten Audiomaterial der betreffenden Person "anhören". Und schon kann die Software mit einer fremdem Stimme sprechen – und Sprechtempo, Aussprache und Intonation täuschend echt synthetisieren.

Auch Amazon entwickelt solche Technologie. Erst vor wenigen Tagen hat der Konzern eine "Alexa" vorgestellt, die zum Beispiel mit der Stimme der verstorbenen Oma sprechen kann – und dem Enkel eine Gute-Nacht-Geschichte vorliest. Hier soll schon eine Minute vorhandenes Sprachmaterial ausreichen, um die künstliche Stimme zu trainieren. Noch ein Prototyp, aber gut möglich, dass Amazon die Technologie schon bald anbietet.

Deep Fakes sind eine Gefahr

All diese Beispiele zeigen: Deep Fakes können zweifellos sehr unterhaltend sein. Im Kino, in der Werbung, auch auf dem eigenen Smartphone. Sie bergen aber auch ein enormes Risiko und Bedrohungspotenzial. Denn in den falschen Händen und auf dem politischen Parkett eingesetzt, können sie fatale Folgen haben. Das Team um Giffey ist erst nach 15 Minuten skeptisch und misstrauisch geworden. Gut möglich, dass dieser Fake-Talk nur ein erster Versuch war – und die Gruppe dahinter noch mehr vorhat.

Über den Autor

Jörg Schieb, WDR-Digitalexperte.

WDR-Digitalexperte Jörg Schieb

Jörg Schieb, Jahrgang 1964, ist WDR-Digitalexperte und Autor von 130 Fachbüchern und Ratgebern. Er beschäftigt sich seit vielen Jahren mit der Digitalisierung und deren Auswirkungen auf unseren Alltag.

Weitere Themen