Det neurala nätverket som lärs ut till nästan perfekt kopia av den mänskliga rösten

Under det senaste året, bolaget DeepMind engagerad i utvecklingen av artificiell intelligens, delade uppgifter om hans nya projekt WaveNet neurala nätverk djupt lärande som kan användas för att sintetici realistiska mänskligt tal. Nyligen släpptes en uppdaterad version av denna teknik som kommer att användas som grund för den digitala mobila assistent Google Assistent.

Systemet med talsyntes (även känd som funktionen “text-till-tal” text-till-tal, TTS) är oftast byggda på grundval av en av två grundläggande metoder. Concatenative (eller komposit) – metoden innebär byggandet av fraser genom insamling av separata delar av inspelade ord och delar pre-inspelade med hjälp av skådespelare dubbning. Den största nackdelen med denna metod är behovet av ständig byte ljud biblioteket varje gång, när det inte finns några uppdateringar eller ändringar.

En annan metod kallas parametrisk TTS, och dess funktion är att använda uppsättningar av parametrar som datorn alstrar önskad fras. Minus den metod som är mest ofta resultatet visar sig i form av så kallade orealistiska eller robot ljud.

För WaveNet, den producerar ljudvågor från grunden baserat på det system som bygger på convolutional neurala nätverk, där ljud generation som händer i flera lager. Första för utbildning plattform centenarii “live” tal till henne att “mata” en stor mängd prover, så notera vilka ljudsignaler som låter realistiskt och inte. Det ger en röst synthesizer reproducera naturalistiska intonation, och även sådana detaljer som ljudet av slagen läppar. Beroende på vilka prover som ska köras genom en tal-system, detta gör det möjligt för henne att utveckla en unik “accent” som så småningom skulle kunna användas för att skapa många olika röster.

En vass tunga

Den kanske största begränsningen av WaveNet-systemet var att det krävs en stor mängd datorkraft, och även i detta tillstånd var det inte olika hastighet. Till exempel, för generering av 0,02 sekunder av ljud hon hade ca 1 sekund tid.

Efter ett år arbetar DeepMind ingenjörer har fortfarande hittat ett sätt att förbättra och optimera systemet så att det nu är möjligt att producera en raw-ljud med en varaktighet av en sekund med hjälp av endast 50 millisekunder, vilket är 1000 gånger snabbare än sin ursprungliga kapacitet. Dessutom experter lyckats öka ljudets samplingsfrekvens med 8-bitars och 16-bitars, vilket har en positiv inverkan på tester med deltagande av publiken. Tack vare dessa framgångar, WaveNet öppnade vägen för integration i sådana konsumtionsvaror som Google Assistent.

Just nu WaveNet kan användas för att generera engelska och Japanska röster via Google Assistent och alla plattformar att använda den digitala assistenten. Eftersom systemet kan skapa en speciell typ av röster beroende på vilken uppsättning prover lämnades för lärande, så snart Google kommer sannolikt att genomföra i WaveNet stöd centenarii realistiska tal och andra tungomål, bland annat med beaktande av deras lokala dialekter.

Tal gränssnitt blir mer och mer vanligt på en mängd olika plattformar, men deras olika onaturliga naturen ljud stöter bort många potentiella användare. Försök företaget DeepMind för att förbättra denna teknik kommer att bidra till en bredare spridning av dessa system röst, och kommer också att förbättra användarens upplevelse av deras användning.

Exempel på engelska och Japanska syntetiskt tal med hjälp av neurala nätverk, WaveNet kan hittas genom att klicka på denna länk.

Det neurala nätverket som lärs ut till nästan perfekt kopia av den mänskliga rösten
Nikolai Khizhnyak