Wie funktioniert das? | Sprachsynthese

In der letzten Ausgabe Sprachen wir über die Spracherkennung, heute besprechen wir das inverse Problem. Also, wie erfolgt die Sprachsynthese, oder, mit anderen Worten, die Transformation beliebiger Text in Sprache — darüber in der heutigen Ausgabe!

Die Aufgabe der Sprachsynthese erfolgt in mehreren Stufen. Vor allem speziellem Algorithmus bereiten Sie den Text, um den Roboter bequem war es zu Lesen: er schreibt alle zahlen in Worten und entschlüsselt die Akronyme. Dann wird der Text in einzelne Sätze, die zu Lesen mit der kontinuierlichen intonation — für dieses System orientiert sich an den Satzzeichen und stabile Konstruktion.

Weiter für alle Wörter zusammen, phonetische Transkription. Um zu verstehen, wie und wo Sie das Wort nicht Lesen, um es zu betonen, greift das System auf die integrierten, gebildeten Menschen Wörterbüchern. Wenn das richtige Wort fehlt, der Computer baut die Transkription selbst, aufbauend auf den akademischen Regeln. Wenn Sie nicht mehr ausreicht, kommen die statistischen Regeln: das System durchläuft Aufzeichnung Sprecher und legt fest, auf welcher Sie Taten Silbe die Betonung.

Wenn Transkription besteht, berechnet der Computer, wie viele Frames, oder, in anderen Worten, Fragmenten mit einer Länge von 25 Millisekunden. Als Nächstes wird jeder Frame beschreibt eine Vielzahl von Parametern: ein Teil welche Phoneme es ist, welchen Platz es einnimmt, in welcher Silbe gehört dieses Phonem. Auch beschreibt ударность oder безударность Phoneme, falls es ein Vokal. Darüber hinaus erstellt das System die richtige intonation, mit der Daten über den Begriff und Angebot.

Dann das System nutzt akustische Modell, um den vorbereiteten Text zu Lesen. Es setzt die übereinstimmung zwischen фонемами mit bestimmten Eigenschaften und sounds. Akustische Modell weiß, wie man richtig aussprechen фонему und die richtige intonation zu verleihen Vorschlag durch machine learning. Je mehr Daten, auf denen das Modell lernt, desto besser auszustellende Ihr Ergebnis.

Dass gleiche gilt für die Wähler, das Sie erkennbar macht, in Erster Linie, die Klangfarbe, die abhängig von den Besonderheiten des Baus der Organe des sprechapparates. Die Klangfarbe jeder Stimme kann simuliert werden, D. H. seine Eigenschaften beschreiben — es ist genug, um nachts im Studio eine kleine Menge von Texten. Danach werden die Daten über die Voice kann bei der Synthese der Rede in einer beliebigen Sprache. Wenn ein System muss etwas sagen, Sie benutzt den generator Schallwellen — Vocoder. In ihm wird geladen Informationen über Frequenzgang Sätze, die von der akustischen Modelle, sowie Daten über die Voice, die Stimme verleiht erkennbare Färbung.

Es ist erwähnenswert, dass die moderne Technologie der Sprachsynthese haben einige Probleme. Die erste von Ihnen besteht in der Künstlichkeit. Jede synthetisierte Rede erschließt sich dem Menschen zu arbeiten, und er gezwungen ist, zusätzliche Ressourcen zu erschließen, um es zu verstehen. Dadurch können die Menschen normalerweise wahrnehmen Sprachausgabe nur etwa 20 Minuten. Auch bei synthetisierte Sprache, in der Regel keine emotionale Färbung, und es hat eine geringe Störfestigkeit. Mit anderen Worten, die Wahrnehmung der synthetisierten Sprache dem Menschen stören alle, auch die kleinsten Hintergrundgeräusche.

Wie funktioniert das? | Sprachsynthese
Hi-News.ru