Hur fungerar det? | Talsyntes

I förra numret talade vi om taligenkänning, idag kommer vi att diskutera den inversa problem. Så hur gör talsyntes, eller, med andra ord konvertera en godtycklig text till tal om det i dagens fråga!

Uppgiften av talsyntes kan lösas i flera steg. Först av allt, en speciell algoritm är nödvändigt att utarbeta texten till robot vara bekvämt att läsa: den registrerar alla nummer avkoda ord och förkortningar. Då texten är uppdelad i enskilda fraser som måste läsas med kontinuerlig ton — för detta system fokuserar på skiljetecken och hållbar design.

Så för att alla ord är fonetisk transkription. För att förstå hur man kan läsa ordet och där för att sätta det accent, systemet kommer åt det inbyggda, skriven av ordlistan. Om det önskade ordet är frånvarande, datorn bygger transkription av sina egna, baserat på akademiska regler. Om de är otillräckliga, i de fall där statistiska regler: det system som itererar igenom den dokumentation av högtalare och bestämmer vilken stil de gjorde den vikt.

När transkriberingen är gjord, den dator som räknar ut hur många ramar, eller, med andra ord, fragment med en längd av 25 millisekunder. Nästa, varje bild beskrivs av flera parametrar: en del av fonem som det är, vilken plats det ligger i en stavelse som innehåller detta fonem. Den beskriver också de franska eller bezdarnosti fonem, om det är en vokal. Dessutom skapar systemet med rätt intonation med frasen och mening.

Systemet använder sedan den akustiska modellen för att läsa den förberedda text. Det fastställer korrespondens mellan fonem med vissa egenskaper och ljud. Akustisk modell vet hur korrekt att uttala fonem och att ge rätt intonation av en mening genom maskininlärning. Ju mer data som modellen lär sig, desto bättre hon utfärdade ett resultat.

För rösterna får dem att känna igen i första hand, tonen beror på egenskaperna hos strukturen av de organ i sång-apparater. Klangen av en röst kan simuleras, som är, för att beskriva dess egenskaper — det är nog att spela in i Studion en liten mängd text. Från och med då, tonen kan användas i den syntes av tal i vilket språk som helst. När systemet behöver för att säga något, använder den en generator av ljudvågor — vocoder. Visar information om frekvens egenskaper av frasen, som erhålls från den akustiska modellen, liksom uppgifter om den röst som ger en röst att känna igen färg.

Det är värt att notera att modern teknik för talsyntes inte har några problem. Den första av dessa är den förkonstling. Något syntetiskt tal uppfattas av en person med svårigheter, och han är tvungen att använda ytterligare resurser för att förstå det. Alltså, människor normalt kan uppfatta syntetiskt tal bara cirka 20 minuter. Även syntetiskt tal, som regel, ingen känslomässig färgning, och den har lågt brus immunitet. Med andra ord, uppfattningen av syntetiskt tal störa någon person, även den minsta ljud.

Hur fungerar det? | Talsyntes
Hej-News.ru