Deepfakes: Wir können unseren Augen und Ohren nicht mehr trauen

Stand: 02.06.2023, 06:00 Uhr

Künstliche Intelligenz erstellt längst nicht mehr nur Texte und Bilder, sondern auch Töne und Videos. Die sind von echten Aufnahmen kaum noch zu unterscheiden. Was KI heute schon kann – und wie wir uns vor Deepfakes schützen können.

Von Jörg Schieb

Deepfakes bestimmen jetzt schon die Schlagzeilen: Zum Beispiel das Fake-Foto, das den Papst in einer Luxus-Daunenjacke zeigt. Oder vor einigen Tagen die Fake-Aufnahmen einer angeblichen Explosion am Pentagon. Die Aufnahmen kursierten in den Sozialen Netzwerken und reichten schon, um zumindest kurzzeitig die Börsenkurse einbrechen zu lassen. Auch kursierte schon ein Fake-Video von Wolodymyr Selenskyj, in dem er sein ukrainisches Militär zur Niederlegung der Waffen aufgefordert hat.

Es gibt immer mehr, technisch immer besser gemachte Fakes – erzeugt mit Hilfe von KI. Chatbots wie ChatGPT von OpenAI oder Bard von Google erstellen auf Knopfdruck Texte zu jedem beliebigen Thema - in jeder gewünschten Länge. Meist in guter Qualität. KI-Systeme wie Midjourney oder Stable Diffusion hingegen erzeugen nach Eingabe entsprechender Kommandos innerhalb weniger Sekunden Fotos, Bilder, Cartoons oder Illustrationen – die mitunter aussehen, als hätten Menschen sie gemacht.

KI und Deepfake bald auch für Experten nicht mehr zu erkennen

Solche KI-Systeme sind allgemein verfügbar – teilweise sogar kostenlos, die besseren kosten einige Euro pro Monat. Mittlerweile gibt es eine regelrechte Flut von Apps, die das für alle verfügbar machen, ohne jede Vorkenntnisse (allerdings zu teilweise gepfefferten Preisen).

Die nächste Stufe sind Audios und Videos, die mit Hilfe von KI erzeugt werden – und ebenfalls mittlerweile ein bemerkenswertes technisches Niveau erreichen. Eine Unterscheidung zwischen echt und unecht, zwischen wahr und Fake ist für den Laien kaum noch möglich – und schon bald selbst für Experten nicht mehr. Bisher lassen sich - häufig auch mit KI - Hinweise für die künstliche Erzeugung finden. Da die KI-Systeme immer besser werden, kann das schon bald nicht mehr möglich sein.

Moderne KI variiert das Sprechtempo, kann auch Emotionen einbringen – sie erzeugt so verblüffend echt wirkende Audios. In der deutschen Sprache bewegen sich die Ergebnisse noch nicht auf diesem Niveau – aber das ist nur eine Frage der Zeit.

Fake: KI kann die Stimme eines jeden anderen nachbilden

Doch jetzt wird es problematisch: Immer mehr KI-Systeme bieten die Möglichkeit an, völlig frei eine eigene synthetische Stimmen zu trainieren. Wer nun eigene Sprachproben einspielt, kann zum Beispiel seine eigene Stimme trainieren – oder die jedes anderen Menschen. Es braucht nur wenige Minuten Sprachtext – möglichst ohne Nebengeräusche – und schon kann ein System wie Elevenlabs mit der trainierten Stimme sprechen.

Bundeskanzler Olaf Scholz aus dem "Kleinen Prinzen" vorlesen oder die Stauschau vortragen lassen? Gar kein Problem: Wer nicht genau hinhört, bemerkt den Unterschied nicht, wie dieses Video beweist.

Deepfakes: Audios lassen sich leicht fälschen

Komplett monoton klingende KI-Stimmen gehören längst der Vergangenheit an. Heute muss man auf "Natürlichkeit" achten: Klingen die Stimmen variantenreich und natürlich? Noch kriegen das KI-Systeme mit deutscher Sprache nicht perfekt hin. Aber schon bald wird auch hier kein Unterschied mehr zu hören sein.

Das Risiko liegt auf der Hand: Entsprechend trainiert, lässt sich mit modernen KI-Systemen mit den Stimmen von Prominenten oder Politikern so ziemlich alles sagen. Dem Einsatz manipulativer Deepfakes sind Tür und Tor geöffnet. Durch die weite Verbreitung solcher Systeme und den niederschwelligen Einsatz erhöht sich das Risiko, das Nachrichten mit Deepfakes verbreitet werden. Etwa, indem behauptet wird, ein Politiker hätte etwas gesagt – und als Beleg wird ein Audio verteilt.

KI-Systeme erzeugen Videos – oder tauschen Gesichter aus

Ganz ähnlich verhält es sich mit Videos. Bis vor einigen Monaten waren überzeugende Deepfake-Videos nur im Labor zu erzeugen. Doch die Fortschritte der KI-Systeme sind rasant: Es ist mittlerweile möglich, künstliche Avatare sprechen zu lassen.

KI-Systeme erzeugen auf Wunsch virtuelle Avatare, die jeden Text vorlesen – auch vor offizieller Kulisse

KI-Systeme erzeugen virtuelle Avatare, die jeden Text vorlesen.

Last but not least gibt es bereits KI-Systeme wie "Deepfakesweb.com", die einen "Face Swap" anbieten: Das Gesicht in einem A-Video wird durch ein anderes Gesicht aus einem B-Video ausgetauscht. Auf Wunsch kann dieses dann reinmontierte Gesicht alles sagen, was es soll – lippensynchron. Das erfordert einiges an Rechenaufwand, Zeit und Kosten – ist aber eben mittlerweile möglich.

Es gibt bereits KI-Systeme, die komplette Gesichter in Videos austauschen – gegen jedes beliebige Gesicht

Es gibt KI-Systeme, die komplette Gesichter in Videos austauschen.

Enkeltrick mit "echter" Stimme

Die durch KI erzeugte Audios und Videos kommen auch im kriminellen Umfeld zum Einsatz – schon jetzt. So wird der bekannte "Enkeltrick" erweitert: Potenzielle Opfer bekommen nicht nur einen angeblichen Hilferuf als Textnachricht per Whatsapp zugeschickt, sondern auch schon durch KI erzeugte Hilfeaufrufe in gesprochener Form. Der Aufwand ist zwar etwas höher, der Effekt aber durchschlagend – denn wer misstraut einer Stimme, die er kennt? In den USA haben Kriminelle diese Methode bereits erfolgreich angewandt.

Ein Problem, denn die Polizei ist auf solche kriminelle Methoden noch nicht vorbereitet. Gerhard Schabhüser von "Bundesamt für Sicherheit in der Informationstechnik" (BSI) sagt dem WDR: "Eine technische Unterstützung auf großem Qualitätsniveau gibt es leider noch nicht. Aber ich bin mir sicher, dass wir an dieser Stelle Forschung und Entwicklung vorantreiben müssen, um künftig unseren Bürgerinnen und Bürgern Detektions-Tools von Deepfakes an die Hand zu geben, damit sie das besser bewerten können." Bedeutet: Der Experte wünscht sich, dass Bürger selbst mit geeigneten Werkzeugen überprüfen können, ob ein Audio oder Video mit KI erzeugt wurde.

Mehr gesundes Misstrauen nötig

Noch gibt es solche Werkzeuge nicht. Bei Audios deshalb auf Sprechtempo und Sprachrhythmus achten: Noch verraten sich manche KI-Systeme durch eine gewisse Monotonie. Bei Videos empfiehlt es sich, ganz genau darauf zu achten, ob lippensynchron gesprochen wird. Auch sind KI-Videos häufig etwas "matschig": Das erfordert weniger Rechenzeit und könnte ein Hinweis auf ein Deepfake sein.

Wir Menschen neigen dazu, unseren Sinnen zu vertrauen. Doch wir leben in einer Zeit, in der nicht nur Fotos, sondern eben auch Audios und Videos leicht zu manipulieren sind – oder sogar komplette Deepfakes erzeugt werden können. Wir sind daher gut beraten, unseren Augen und Ohren nicht einfach mehr so zu trauen. Ein Quellen-Check wird immer wichtiger.

Mit diesen Quizzen kann jeder sein Deepfake-Wissen testen:

Mehr zum Thema beim WDR:

Weitere Themen