Kinesiska utvecklare har lärt AI att tala i en mänsklig röst

Specialister av Kinesiska lab Baidu Forskning, som ägs av de största sökandet jätten Kina, har skapat en algoritm AI Djup Röst, kan konvertera text till tal. Liknande projekt som funnits dessförinnan, inför problemet att graden av syntes av ljud, så att generera en röst föregångare av den Djupa Vice krävs från flera minuter till några timmar för att på ett korrekt och maximalt naturalistiska spela text i en mänsklig röst. En ny utveckling av Kinesiska forskare baserade på neurala nätverk kan konvertera text till tal i realtid.

Djup Röst är i stånd att härma klangen, tonen i röst och accent, vilket gör dem mycket trovärdig och nästan omöjlig att skilja från den äkta varan, samtidigt som en röst kan vara män eller kvinnor. Utvecklarna tror att deras teknik kan användas som digitala assistenter, att använda för inspelning av röster i ideogrammet eller även användas för simultantolkning av filmer med undertexter.

“Detta är ett verkligt genombrott från en teknisk synvinkel, eftersom vi kunde lösa komplexa problem, syntes ett levande språk med alla dess egenheter, säger Leo Zu, en av författarna av projektet.

Skaparna av den algoritm som är förklarade att projektet Djupa Röst inspirerad av en liknande utveckling, med alla dess komponenter som körs neurala nätverk, även med ganska enkla funktioner, som gör algoritmen mycket adaptiv röst kan justeras för “under sig”, vilket ger nya accenter och andra funktioner.

“Djupt lärande har lett till en revolution inom olika områden, till exempel datorseende och taligenkänning, och nu är det dags och talsyntes. Vi är glada att kunna uppnå ett sådant resultat, och kommer att fortsätta att arbeta för att göra systemet en “text-röst” mer realistiska” — ger Moderkortet ett citat av utvecklare.

Glöm inte vårt telegram-chatten!

Kinesiska utvecklare har lärt AI att tala i en mänsklig röst
Vyacheslav Larionov