Detta Artificiellt Intelligent Tal Generator Kan Fejka Någon Röst

GIF-Credit: 1987Maou

Den mänskliga rösten, med alla dess subtilitet och nuance, har visat sig vara en ytterst svår sak för datorer att efterlikna. Med hjälp av en kraftfull ny algoritm, en Montreal-baserade AI start har utvecklat en röst generator som kan härma nästan alla personens röst, och även lägga till en känslomässig punch när det behövs. Systemet är inte perfekt, men det förebådar en framtid när röster, som foton, kan vara lätt att förfalska.

Annons

När Siri, Alexa, eller att våra GPS-prata med oss, är det ganska uppenbart att vi är tilltalade av en maskin. Det beror på att praktiskt taget varje text-till-tal-system på marknaden bygger på en förinspelad uppsättning av ord, fraser och uttryck (inspelad röst från aktörer), som sedan är uppträdda tillsammans i Frankenstein-liknande sätt att producera hela ord och meningar. Slutresultatet är ett röstläge som ljud tydligt oinspirerande, robot, och ibland skrattretande. Detta förhållningssätt till talsyntes innebär också att vi har fastnat lyssna till samma förinspelad, monoton röst om och om igen.

I ett försök att injicera lite liv i den automatiserade röster som kommit ut av våra appar, AI start Lyrebird har utvecklat en röst-imitation algoritm som kan härma en människas tal, och läsa en text med en fördefinierad känslor eller intonation. Otroligt, kan det göra det efter att ha analyserat bara några tiotal sekunder av förinspelade ljud. I ett försök att främja sina nya verktyg, Lyrebird producerat flera ljud prover med röster av Barack Obama, Donald Trump, och Hillary Clinton.

Lyrebird s demos också visa upp det nästan obegränsat sortiment av röster, och systemets förmåga att uttrycka samma mening med olika tonfall.

Detta är gjort genom möjligt genom användning av artificiella neurala nätverk, som fungerar på ett liknande sätt som de biologiska neurala nätverk i hjärnan. I huvudsak algoritmen lär sig att känna igen mönster i en viss persons tal, och sedan återskapa dessa mönster under simulerade tal.

Annons

“Vi utbildar våra modeller på ett stort dataset med tusentals högtalare,” Jose Sotelo, en team medlem på Lyrebird och en talsyntes expert, sa Gizmodo. “Då, för en ny högtalare vi komprimera sin information i en liten nyckel som innehåller deras röst DNA. Vi använder denna nyckel för att säga att nya meningar.”

Slutresultatet är långt från perfekt—prover uppvisar fortfarande digitala artefakter, klarhet problem, och andra konstigheter—men det är ingen tvekan om vem som är att imiteras av tal generator. Förändringar i tonfall är också skönjas. Till skillnad från andra system, Lyrebird lösning som kräver mindre data per högtalare för att producera en ny röst, och det fungerar i realtid. Bolaget planerar att erbjuda sina verktyg till företag i behov av talsyntes lösningar.

– Vi håller på att samla in pengar och växande vårt tekniska team,” sade Sotelo. “Vi arbetar på att förbättra kvaliteten på ljud för att göra det mindre robot, och vi hoppas kunna börja beta-testning snart.”

Sponsrade

Onödigt att säga, denna form av talsyntes, som introducerar en mängd etiska problem och säkerhetsproblem. Så småningom, en förfinad version av detta system skulle kunna återskapa en persons röst med otrolig precision, vilket gör det praktiskt taget omöjligt för en människa lyssnaren att urskilja den ursprungliga från emulering. Den dagen kommer, när sång-tal, som en bild bearbetas i Photoshop, kan ändras utan vår vetskap. Skrupelfria individer kan fejka ett tal av en framstående politiker, ännu ett lager av den framväxande efter sanningen miljö. Hackare kan använda talsyntes för social ingenjörskonst, lura även den mest försiktiga säkerhetsexperter. Möjligheterna är nästan oändliga.

Dessa potentiellt negativa effekter har inte förlorat på Lyrebird, som hävdar att den epok som vi kan lita på ljudupptagningar som är på gränsen till att komma till ett slut.

“Vi tar allvarligt på den potentiella skadliga program av vår teknik,” Sotelo berättade Gizmodo. “Vi vill att tekniken ska användas för goda syften: att ge tillbaka den röst till människor som förlorat sjukdom, att kunna spela in dig själv i olika skeden i livet och höra din röst senare, etc. Eftersom denna teknik skulle kunna utvecklas av andra grupper med skadliga syften, vi tror att rätt sak att göra är att göra det offentliga och väl kända så att vi sluta förlita sig på ljudinspelningar [bevis].”

Ingen tvekan, vi får börja andra gissa ljud-inspelningar av tal snart, men lösningarna kan också utvecklas för att fastställa äktheten av vokala inspelningar. Människor kan luras av sådana system, men datorer inte—åtminstone inte för en stund. Vid analys av kurvan, eller frekvenser, av mänskligt tal, en hög upplösning inspelning kan ge en enorm mängd data, för en dator att analysera. Det kommer att bli en lång, lång tid innan en talsyntes program kan replikera varje enskild aspekt av en persons distinkt tal, som de finare detaljerna i sång timbre (dvs kvaliteten på tal), och mun, ljud som andas, låter tungan, och lip smacking, till den punkt där även en maskin kan inte avgöra skillnaden. Det finns andra aspekter av en inspelning för att tänka på också. Till exempel, avsaknaden av bakgrundsljud, förekomsten av en falsk akustisk utrymme, eller på konstgjord väg införde omgivande ljud bör vara lätt att upptäcka av en maskin avsedd för uppgiften.

Annons

Men så småningom, en talsyntes program kan få möjlighet att falska alla dessa saker, vid vilken punkt, vår förmåga att skilja sanning från lögn kommer att sättas på prov.

[Lyrebird via Scientific American]