Denne Kunstigt Intelligente Tale Generator Kan Falske Nogen Stemme

GIF Kredit: 1987Maou

Den menneskelige stemme, med alle dens underfundighed og nuance, viser sig at være en usædvanlig svært for computere at efterligne. Ved hjælp af en kraftfuld ny algoritme, en Montreal-baserede AI opstart har udviklet en voice generator, der kan efterligne stort set enhver persons stemme, og selv tilføje en følelsesmæssig punch, når det er nødvendigt. Systemet er ikke perfekt, men det varsler en fremtid, når de stemmer, som fotos, kan nemt blive forfalsket.

Når Siri, Alexa, eller vores GPS tale til os, er det temmelig indlysende, at vi bliver talt til af en maskine. Det er fordi stort set alle tekst-til-tale system på markedet, bygger på et præ-indspillet sæt af ord, sætninger og ytringer (optaget fra skuespillere), der er så sat sammen i Frankenstein-ligesom mode til at producere hele ord og sætninger. Slutresultatet er en vokal levering, der lyder enormt uinspirerende, robot, og til tider latterligt. Denne tilgang til at tale-syntese, betyder også, at vi er fast lytter til de samme pre-indspillet, monotone stemme igen og igen.

I et forsøg på at tilføre lidt liv i de elektroniske lyde, der kommer ud af vores apps, AI start Lyrebird har udviklet en stemme-imitation algoritme, der kan efterligne enhver persons stemme, og læse en tekst med en foruddefineret følelser eller intonation. Utroligt, at det kan gøre dette efter at have analyseret blot et par dusin sekunder af indspillede lyd. I et forsøg på at fremme sin nye værktøj, Lyrebird produceret flere lyd-eksempler ved hjælp af de stemmer på Barack Obama, Donald Trump, og Hillary Clinton.

Lyrebird ‘ s demoer også fremvise de næsten ubegrænsede katalog af stemmer, og systemets evne til at formulere den samme sætning med forskellig intonation.

Dette er gjort muligt gennem brugen af kunstige neurale netværk, som fungerer på en måde, der svarer til de biologiske neurale netværk i den menneskelige hjerne. I det væsentlige, den algoritme, der lærer at genkende mønstre i en bestemt persons tale, og derefter gengive dem, mønstre under simuleret tale.

“Vi tog vores modeller på et stort datasæt med tusindvis af højttalere,” Jose Sotelo, et team medlem på Lyrebird og en talesyntese ekspert, fortalte Gizmodo. “Så, for en ny højttaler vi komprimere deres information i en lille nøgle, der indeholder deres stemme DNA. Vi bruger denne nøgle til at sige nye sætninger.”

Det endelige resultat er langt fra perfekt—de prøver stadig at udstille digitale artefakter, klarhed problemer, og andre skøre—men der er lidt tvivl om, hvem der bliver efterlignet af tale-generator. Ændringer i intonationen er også mærkbar. I modsætning til andre systemer, Lyrebird løsning kræver færre data per højttaler til at producere en ny stemme, og det fungerer i real-time. Selskabet har planer om at tilbyde sine værktøj til virksomheder, der har brug for talesyntese løsninger.

“Vi er i øjeblikket på at skaffe midler og voksende vores tekniske team,” sagde Sotelo. “Vi arbejder på at forbedre kvaliteten af den lyd at gøre det mindre robot, og vi håber at starte beta-test snart.”

Det er overflødigt at sige, denne form af talesyntese introducerer et væld af etiske problemer og sikkerhed. I sidste ende, en raffineret version af dette system kunne reproducere en persons stemme med utrolig præcision, hvilket gør det næsten umuligt for et menneske lytteren til at skelne de originale fra de emulering. Dagen, der kommer, når højrøstet tale, ligesom et billede, der behandles i Photoshop, kan manipuleres uden vores vidende. Skruppelløse personer kunne fake en tale af en fremtrædende politiker, der tilføjer endnu et lag til den nye post-truth miljø. Hackere kan bruge talesyntese for social engineering, narre selv den mest omhyggelige-sikkerhed eksperter. Mulighederne er næsten uendelige.

Disse potentielt skadelige virkninger er ikke tabt på Lyrebird, som hævder, at den æra, som vi kan stole på lydoptagelser er på randen af at komme til en ende.

“Vi tager alvorligt, at den potentielle ondsindede programmer af vores teknologi,” Sotelo fortalte Gizmodo. “Vi ønsker, at denne teknologi kan bruges til gode formål: at give tilbage stemme til mennesker, som har mistet den, at sygdom, at være i stand til at optage dig selv på forskellige stadier i dit liv, og høre din stemme senere, osv. Da denne teknologi kunne være udviklet af andre grupper med ondsindede formål, mener vi, at den rigtige ting at gøre, er at gøre det offentlige og kendte, så vi stoppe med at stole på lydoptagelser [dokumentation].”

Ingen tvivl om, at vi bliver nødt til at begynde at gætte på audio-optagelser af tale hurtigt, men løsninger, der også kunne udvikles til at fastslå ægtheden af vokale optagelser. Mennesker kan lade sig narre af sådanne systemer, men computere vil ikke være—i det mindste ikke i et stykke tid. Når man analyserer den bølgeform, eller frekvenser, af menneskelig tale, en høj opløsning optager kan give en enorm mængde af data til en computer, til at analysere. Det vil være en lang, lang tid, før en talesyntese program, der kan kopiere hver enkelt aspekt af en persons karakteristiske tale, ligesom de finere detaljer af vokal klangfarve (det vil sige kvaliteten af tale), og munden lyde, såsom vejrtrækning, tunge lyde, og læbe-afklapsning, til det punkt, hvor selv en maskine ikke kan opdage forskellen. Der er andre aspekter af en optagelse til at overveje, så godt. For eksempel, fravær af baggrundsstøj, tilstedeværelsen af et forfalsket akustisk rum, eller kunstigt indført omgivende lyde bør være let kan påvises ved en maskine designet til opgaven.

I sidste ende, men en talesyntese kan programmet være i stand til at eftergøre alle disse ting, på hvilket tidspunkt, er vores evne til at skelne sandhed fra fremstilling vil blive sat på prøve.

[Lyrebird via Scientific American]