I det sidste spørgsmål, vi talte om talegenkendelse, i dag vil vi diskutere den inverse problem. Så hvordan gør talesyntese, eller, med andre ord, konvertere en vilkårlig tekst til at stemme om det i dagens udgave!
Opgaven med talesyntese er løst i flere faser. Første af alle, en særlig algoritme, der er nødvendige for at forberede teksten til robot være behageligt at læse: det registrerer alle de mange ord og afkodning af forkortelser. Så teksten er brudt op i enkelte sætninger, der skal læses med kontinuerlig tone — for dette system, der fokuserer på tegnsætning og bæredygtigt design.
Så for at alle ord er fonetisk transskription. For at forstå hvordan man kan læse ordet, og hvor til at sætte det accent, systemet får adgang til den indbyggede, skrevet af ordbogen. Hvis det ønskede ord ikke er til stede, computeren bygger transskription af deres egne, der er baseret på akademiske regler. Hvis de er utilstrækkelige, i den sag, der involverer statistiske regler: systemet iterates gennem registreringer af højttalere og bestemmer, hvilken stil, de har vægt.
Når transskriberingen er foretaget, beregner computeren, hvor mange billeder, eller, med andre ord, fragmenter med en længde på 25 millisekunder. Næste, hver frame er beskrevet af mange parametre: en del af fonem, som det er, og hvilken plads indtager det i en stavelse, der indeholder dette fonem. Det beskriver også den franske eller bezdarnosti fonem, hvis det er en vokal. Hertil kommer, at systemet skaber den rette intonation ved hjælp af sætning og sætning.
Systemet bruger derefter akustisk model til at læse forberedt tekst. Det fastslår korrespondance mellem fonemer med bestemte karakteristika og lyde. Akustisk model ved, hvordan man korrekt udtale fonem, og til at give den rette intonation af sætningen gennem machine learning. Jo mere data på, som den model, lærer, jo bedre hun er udstedt et resultat.
Som for de stemmer, der gør dem genkendelige i første omgang, den tone, der afhænger af egenskaber for strukturen af de organer, der af den vokal apparat. Klang af enhver stemme kan være simuleret, der er, for at beskrive dets egenskaber — det er nok til at indspille i Studiet en lille mængde af tekst. Fra da af, den tone, der kan bruges i syntesen af tale på alle sprog. Når systemet har brug for at sige noget, det bruger en generator af lydbølger — vocoder. Viser oplysninger om den frekvens karakteristika af den sætning, der er opnået fra den akustiske modeller, samt data om den stemme, der giver stemme genkendelig farve.
Det er værd at bemærke, at den moderne teknologi for talesyntese har nogle problemer. Den første af disse er kunstigt. Nogen syntetisk tale opfattes af en person med besvær, og han er tvunget til at bruge ekstra ressourcer på at forstå det. Således kan folk, der normalt opfatter syntetiseret kun omkring 20 minutter. Også syntetisk tale, som en regel, at ingen følelsesmæssig farve, og det har lav støj-immunitet. Med andre ord, den opfattelse af syntetisk tale blande sig med hvem som helst, selv de mindste lyde.
Hvordan virker det? | Talesyntese
Hej-News.ru