GIF-Kreditt: 1987Maou
Den menneskelige stemme, med alle dens dybde og nyanser, viser seg å være en usedvanlig vanskelig ting for datamaskiner til å etterligne. Ved hjelp av en kraftig ny algoritme, en Montreal-baserte AI oppstart har utviklet en stemme generator som kan etterligne nesten enhver persons stemme, og selv legge til en følelsesmessig punch når det er nødvendig. Systemet er ikke perfekt, men det varsler en fremtid når stemmer, som bilder, kan lett bli forfalsket.
Når Siri, Alexa, eller våre GPS-snakk med oss, det er ganske åpenbart at vi blir snakket til av en maskin. Det er fordi nesten alle tekst-til-tale-system på markedet baserer seg på en pre-innspilte sett av ord, setninger og ytringer (som er tatt opp fra stemmeskuespillere), som så er satt sammen på Frankenstein-som mote å produsere fullstendige ord og setninger. Sluttresultatet er en vokal levering som høres tydelig uinspirerende, robot, og til tider latterlig. Denne tilnærming til tale-syntese betyr også at vi er fast lytter til den samme pre-innspilt, monoton stemme over og over igjen.
I et forsøk på å injisere litt liv i den automatiserte stemmer som kom ut av våre apps, AI oppstart Lyrebird har utviklet en stemme-imitasjon algoritme som kan etterligne en persons stemme, og lese tekst med en forhåndsdefinert følelser eller intonasjon. Utrolig, det kan gjøre dette etter å ha analysert bare et par dusin sekunder av pre-innspilt lyd. I et forsøk på å fremme sine nye verktøy, Lyrebird produsert flere audio-eksempler ved å bruke stemmene til Barack Obama, Donald Trump, og Hillary Clinton.
Lyrebird er demoer også vise frem det nesten ubegrenset katalog av stemmene, og systemets evne til å artikulere den samme setningen med forskjellige intonations.
Dette er alle laget av mulig gjennom bruk av kunstige nevrale nettverk, som fungerer på en lignende måte som de biologiske nevrale nettverk i den menneskelige hjerne. I hovedsak, det algoritme lærer å gjenkjenne mønstre i en bestemt persons tale, og deretter gjenskape disse mønstrene under simulert tale.
“Vi trener våre modeller på en stor dataset med tusenvis av høyttalere,” Jose Sotelo, et medlem av teamet på Lyrebird og en talesyntese ekspert, sa Gizmodo. “Så, for en ny høyttaler vi komprimere informasjonen sin i en liten nøkkel som inneholder deres stemme DNA. Vi bruker denne tasten til å si nye setninger.”
Sluttresultatet er langt fra perfekt—prøvene fortsatt vise digitale artefakter, klarhet problemer, og andre weirdness—men det er liten tvil om hvem som blir imitert av talen generator. Endringer i intonasjon er også merkbar. I motsetning til andre systemer, Lyrebird løsning krever mindre data per høyttaler for å produsere en ny stemme, og det fungerer i sanntid. Selskapet planlegger å tilby sine verktøy til selskaper som er i behov av talesyntese løsninger.
– Vi jobber med å skaffe midler og voksende våre engineering team,” sa Sotelo. “Vi jobber med å forbedre kvaliteten på lyd for å gjøre det mindre robot, og vi håper å starte beta-testing snart.”
Unødvendig å si, denne formen for talesyntese introduserer en rekke etiske problemer og sikkerhet bekymringer. Til slutt, en forbedret versjon av dette systemet kunne gjenskape en persons stemme med utrolig nøyaktighet, noe som gjør det nærmest umulig for et menneske som lytter til å skille originalen fra emulering. Dagen kommer når vokal tale, som et bilde er behandlet i Photoshop, kan manipuleres uten vårt vitende. Skruppelløse individer kan fake en tale av en fremtredende politiker, legge enda et lag til den nye post-sannheten miljø. Hackere kan bruke talesyntese for social engineering, lure selv den mest forsiktige sikkerhet eksperter. Mulighetene er nesten uendelige.
Disse potensielt uheldige konsekvenser er ikke tapt på Lyrebird, som hevder at den epoken der vi kan stole på at lydopptak er på randen av å komme til en slutt.
“Vi tar på alvor den potensielle skadelige programmer av vår teknologi,” Sotelo fortalte Gizmodo. “Vi vil denne teknologien som skal brukes til gode formål: å gi tilbake stemmen til mennesker som har mistet det til sykdom, å være i stand til å registrere deg på ulike stadier i livet ditt og høre stemmen senere, etc. Siden denne teknologien kan være utviklet av andre grupper med ondsinnet hensikt, tror vi at den rette tingen å gjøre er å gjøre det offentlige og kjente slik at vi slutter å stole på lydopptak [som bevis].”
Ingen tvil, vi er nødt til å begynne å andre gjette lydopptak av talen snart, men løsningene kan også være utviklet for å fastslå ektheten av vokal opptak. Mennesker kan bli lurt av slike systemer, men datamaskiner vil ikke være—i alle fall ikke på en stund. Ved å analysere bølgeform, eller frekvenser, av menneskelig tale, opptak med høy oppløsning kan gi en enorm mengde data på en datamaskin til å analysere. Det vil bli en lang, lang tid før en talesyntese programmet kan gjenskape hver eneste del av en persons særegne tale, liker de finere detaljene av vokal klang (dvs. kvaliteten på talen), og munnen lyder som pusting, tunge lyder, og leppe smacking, til det punktet hvor selv en maskin kan ikke oppdage forskjellen. Det er andre aspekter av et opptak hvis du anser som godt. For eksempel, fravær av bakgrunnsstøy, tilstedeværelsen av en forfalsket akustisk plass, eller kunstig innført lyder fra omgivelsene bør være lett kan påvises ved en maskin som er designet for oppgaven.
Til slutt, men en talesyntese programmet kan være i stand til å falsk alle disse tingene, og på dette punktet, er vår evne til å skjelne sannhet fra fabrikasjon vil bli satt på prøve.
[Lyrebird via Scientific American]