Angeklickt: Manipulationen durch Software

Stand: 11.11.2016, 18:17 Uhr

Photoshop kennt fast jeder - damit lassen sich Fotos bearbeiten, Falten wegretuschieren. Doch auch Audios und Videos kann man verändern. Softwareentwickler arbeiten an einer Software, mit der man alles sagen kann - mit der Stimme jeder Person. Unser Netzkenner Jörg Schieb weiß mehr.

Gesprochene Sprache sieht am Computer aus, wie zappelnde Audiowellen. Man kann sie bearbeiten und verändern – das ist aber mühsam. Jetzt haben Entwickler bei Adobe eine Software gezeigt, die unglaubliches leistet: Mit wenigen Mausklicks lässt sich jeder gesprochene Text verändern. Einzelne Wörter raus, neue Wörter dazu.

Das kann VoCo

VoCo heißt die Software, die nicht nur beim Publikum großes Erstaunen ausgelöst hat, sondern auch in Fachkreisen. Denn VoCo ist keine App, um Sounddateien zu bearbeiten. Davon gibt es bereits viele. VoCo ist eine Software, mit der man gesprochene Sprache verändern kann - komplett anders als bislang. Das fängt schon damit an, dass die Software jedes einzelne Wort, das gesprochen wurde, versteht. Unter den Soundwellen erscheint das jeweilige Wort als Text. Will man den Satz ändern, bearbeitet man einfach den Text. Wie in einer Textverarbeitung. Die Software kann anschließend den Text sprechen.

Die Software generiert neue Sätze in gesprochener Sprache

Den Effekt sieht man im Publikum der Präsentation: Es ist fast schon erschrocken. Kein Wunder: Man kann die Software sogar Dinge sagen lassen – und zwar mit der Stimme jeder beliebigen Person – die sie nie gesagt hat. Die VoCo-Software analysiert die Sprache, die Stimme, den Sprechrhythmus der Person und kann dann jeden beliebigen Satz sagen. Das ist so überzeugend, in einer derart guten Qualität, dass es heute schon kaum auffällt, dass das Gesagte künstlich erzeugt wurde. Schon bald soll es unmöglich sein zu hören, dass das Gesprochene aus einer Maschine kommt.

Damit VoCo wirklich jeden Satz selbständig formen kann, braucht es 20 Minuten gesprochenen Text. Nicht mehr. Das reicht, um die Art des Sprechens einer Person kennenzulernen und perfekt zu imitieren. Von Politikern und Promis 20 Minuten Material zusammen zu bekommen ist natürlich ganz einfach. Die könnte man dann alles sagen lassen.

Woher wissen wir in Zukunft, was echt ist?

Daraus ergeben sich zweifellos faszinierende Möglichkeiten. Wir werden definitiv schon bald Stimmen "photoshoppen" können ohne selbst Tontechniker sein zu müssen. Adobe betont bei der Präsentation aber auch, dass Möglichkeiten vorgesehen werden, damit wir künftig echte von unechten Soundschnipseln unterscheiden können. Mit Hilfe sogenannter digitaler Wasserzeichen.

Digitale Wasserzeichen sind unhörbar, aber für Software sichtbar in den Audios versteckt. Doch um so ein Wasserzeichen sichtbar zu machen, reicht es nicht, aufmerksam hinzuhören – ein Wasserzeichen hört man nicht, man kann es nur sehen. Da muss man schon eine App oder eine Software benutzen, um echt und unecht unterscheiden zu können. Da kommt also etwas auf uns zu. Auf der anderen Seite haben wir uns an Photoshop und die vielen anderen Apps, mit denen wir auch selbst Fotos bearbeiten, aufhübschen und frisieren auch gewöhnen können.

Was sich noch bearbeiten lässt

Aber auch Videos können nachbearbeitet und verfremdet werden. Forscher der Universität Erlangen zeigen, wie das geht: Mit der Software "Face2Face" kann man die Gesichtszüge einer Person in einem Video verändern. Etwa in in einem YouTube-Video. Man setzt eine andere Person vor eine handelsübliche Webcam – und die Mimik dieser Person wird auf die Mimik der Person im Video übertragen. Das ist so, als würde man mit einer Puppe spielen. Promis oder Politiker machen dann das Gesicht, das man möchte. Ohne aufwändige Animationen oder Retuschen. Erledigt alles die Software – sogar live.

Wissenschaftlich ungeheuer interessant und anspruchsvoll. Aber auch hier entstehen ungeahnte Möglichkeiten der Manipulation. Wer die Gesichtszüge einer Person unter Kontrolle hat und dann auch noch mit der Stimme der Person sprechen kann – da ist alles denkbar. Wir sollten also nicht alles glauben was wir hören oder sehen. In Zukunft noch weniger als bisher - spannend und beunruhigend zugleich.