Nya Lip-Sync-Tekniken Använder Ljudklipp för att Generera Realistiska Video

Forskarna har utvecklat nya algoritmer som kan vända ljud klipp till en realistisk, läpp-synkroniserad video av den person som talar dessa ord.

De forskare som framgångsrikt genererat mycket realistisk video av USA: s förre President Barack Obama talar om terrorism, faderskap, arbetstillfällen och andra ämnen, med hjälp av ljud klipp av dessa tal och befintliga veckans video adresser som ursprungligen om ett annat ämne.

“Den här typen av resultat har aldrig visat tidigare,” sade Ira Kemelmacher-Shlizerman, biträdande professor vid University of Washington (UW) i USA.

“Realistiskt ljud-till-video konvertering har praktiska tillämpningar som till exempel att förbättra videokonferenser för möten, samt futuristiska sådana, som kunna hålla en konversation med en historisk person i en virtuell verklighet genom att skapa bilder bara från ljud,” sade Kemelmacher-Shlizerman.

I en visuell form av läpp-synkronisering, systemet konverterar ljudfiler av en persons tal till realistiska mun former, som sedan ympade på och blandas med chefen för att en person från en annan befintlig video.

Laget valde Obama eftersom maskinen lära sig tekniken behov som finns video på den person att lära sig från, och det var timmar av presidentens videor i public domain.

“I framtiden video, chatt verktyg som Skype eller Messenger kommer att ge vem som helst att samla filmer som kan användas för att träna datormodeller,” Kemelmacher-Shlizerman sagt.

Eftersom streaming-ljud över Internet tar upp mycket mindre bandbredd än video, det nya systemet har potential att slutet videochattar som ständigt timing ut från dåliga anslutningar.

“När du tittar på Skype eller Google Hangouts, ofta i anslutning stuttery och låg upplösning och riktigt obehaglig, men ofta ljudet är ganska bra,” sade Steve Seitz, professor vid UW.

“Så om du kan använda ljud för att producera mycket högre kvalitet video, som skulle vara fantastiskt,” sade han.

Genom att vända processen – utfodring video på nätet istället för ljud – teamet kan också tänka sig att utveckla algoritmer som kan upptäcka om en video som är verkligt eller tillverkas, forskare säger.

Den nya maskinen lärande verktyg som gör betydande framsteg i att övervinna vad som är känt som “uncanny valley” problem, som är ihärdiga ansträngningar för att skapa en realistisk video från ljud.

När syntetiskt mänskliga likheter verkar vara nästan riktigt – men ändå lyckas på något sätt missa märket – att folk hittar dem läskiga eller avskräckande.

“Människor är särskilt känsliga för alla delar av munnen som inte ser realistisk,” sade Supasorn Suwajanakorn, en doktorand examen vid UW s Allen School of Computer Science & Engineering.

“Om du inte gör tänderna rätt eller hakan rör sig i fel tid, folk kan se det direkt och det kommer att se ut falska. Så du har att göra mun regionen perfekt att gå bortom den kusliga dalen” Suwajanakorn sagt.