Das neue system ermöglicht die volle Kontrolle über den Ziel durch die übertragung der starre Kopf-pose, mimik und Augen-Bewegungen mit einem hohen Maß an Fotorealismus.” Hier, eine Quelle Schauspieler (input) dient zum Bearbeiten von portrait-video von einem Ziel-Schauspieler (die Ausgabe). Bild: H. Kim et al., 2018
Aber es ist mehr als nur die mimik. Die neue Technik ermöglicht eine Reihe von Bewegungen, einschließlich der vollständigen 3D-Kopfposition, Kopfdrehung, Auge, Blick und Auge blinkt. Das neue system verwendet die AI in der form der generativen neuronale Netze, den trick zu tun, Daten aus dem signal-Modelle und die Berechnung oder Vorhersage, die fotorealistische Bilder für den angegebenen Ziel-Schauspieler. Beeindruckend sind die Animateure nicht zu ändern, die Grafiken für die bestehenden Haare, die Ziel-Schauspieler-Körper, oder der hintergrund.
Sekundäre algorithmen werden verwendet, um die richtige glitches und andere Artefakte geben den videos eine glatte, super-realistischen look. Sie sind nicht perfekt, aber Heilige Scheiße, Sie sind beeindruckend. Das Papier beschreibt die Technik, in der neben akzeptiert für die Präsentation auf der SIGGRAPH 2018, wurde veröffentlicht in der peer-reviewed Fachzeitschrift ” ACM Transactions on Graphics.
Tiefe Video-Porträts präsentiert nun eine sehr effiziente Möglichkeit, zu tun, computer-animation und zu erwerben fotorealistische Bewegungen von bereits vorhandenen schauspielerischen Leistungen. Das system könnte zum Beispiel verwendet werden, in audio-Synchronisation, die beim erstellen von Versionen der Filme in anderen Sprachen. Also wenn ein film in Englisch gedreht, dieser tech könnte verwendet werden, ändern Sie die Lippenbewegungen zu passen die synchronisierten audio in Französisch oder Spanisch, zum Beispiel.
Leider, dieses system wird wahrscheinlich missbraucht werden—eine Aufgabe, die nicht verloren geht auf die Forscher.
“Zum Beispiel, die Kombination von photo-echte Synthese aus Gesichts-Bilder mit einer Stimme, Imitator oder eine Sprach-Synthese-system würde es ermöglichen, die Erzeugung von made-up-video-Inhalte, die verwendet werden könnten, um Menschen diffamieren oder zu verbreiten, so genannte “fake-news”,” schreibt Zollhöfer bei seinem Stanford-blog. “Derzeit werden die modifizierten videos noch immer weisen viele Artefakte, das macht die meisten Fälschungen leicht zu erkennen. Es ist schwer, vorherzusagen, zu welchem Zeitpunkt solche “fake” videos werden nicht von realen Inhalten, die für unsere menschlichen Augen.”
Leider deepfake tech ist bereits in den Pornos, mit frühen Bemühungen zu reduzieren oder zu eliminieren diese invasive videos erweist sich als weitgehend nutzlos. Aber für die aufkeimende Welt der fake-news, es gibt einige mögliche Lösungen, wie digitale Wasserzeichen-algorithmen. In der Zukunft, AI könnte verwendet werden, um zu erkennen, Fälschungen, schnüffeln für die Muster, die für das menschliche Auge unsichtbar. Letztlich, jedoch, es wird an uns, zu erkennen, Tatsache von Fiktion.
“Meiner persönlichen Meinung nach, am wichtigsten ist, dass die Allgemeine öffentlichkeit muss sich bewusst sein, von den Möglichkeiten der modernen Technologie für die video-Generierung und-Bearbeitung”, schreibt Zollhöfer. “Dies ermöglicht es Ihnen, mehr zu denken kritisch über die video-Inhalte, die Sie jeden Tag verbrauchen, vor allem, wenn es gibt keinen Beweis der Herkunft.”
[ACM Transactions on Graphics via BoingBoing]