Ein neuronales Netz gelernt nahezu perfekt die menschliche Stimme zu kopieren

Im vergangenen Jahr hat das Unternehmen DeepMind, spezialisiert auf die Entwicklung von Technologien der künstlichen Intelligenz, teilte Details über sein neues Projekt WaveNet – neuronales Netz tiefgründiger zu lernen, verwendet für синтезации realistischen menschlichen Sprache. Neulich wurde eine verbesserte Version dieser Technologie, die verwendet wird, als Grundlage digitaler mobiler Assistent für Google Assistant.

Das System der Sprach-Synthese (auch bekannt als Konvertierung-Funktion «Text-to-speech», text-to-speech, TTS) in der Regel wird auf der Basis einer der beiden wichtigsten Methoden. Конкатенативный (oder компилятивный) – Methode beinhaltet die Konstruktion der Sätze durch das sammeln von einzelnen Stücken aufgenommenen Wörtern und Teile, die im Voraus mit der Beteiligung aufgenommenen Schauspieler Interviews. Der Hauptnachteil dieses Verfahrens ist die Notwendigkeit ständiger Austausch der Sound-Bibliothek jedes mal, wenn es irgendwelche Updates oder änderungen.

Eine andere Methode trägt den Namen des parametrischen TTS, und seine Besonderheit ist die Verwendung von Parametersätzen, mit denen der Computer erzeugt die gewünschte phrase. Minus Methode ist, dass meistens das Ergebnis zeigt sich in Form eines unrealistischen oder so genannten automatischen Klang.

Dass gleiche gilt für WaveNet, das es erzeugt Schallwellen mit null-basierte Systeme, die auf der Grundlage сверточной neuronales Netz, wo die Erzeugung der sounds erfolgt in mehreren Schichten. Zuerst die Plattform für die Ausbildung синтезации «Live» reden Sie «fütterte» die riesige Menge an Proben, dabei feststellend, welche Töne klingen realistisch und welche nicht. Es gibt Voice-Synth wiedergeben Möglichkeit натуралистичную intonation und sogar solche Details wie чмокающие sounds Lippen. Je nachdem, welche Proben es прогоняются durch das System, dadurch kann man Sie entwickeln einzigartige «Akzent», was in der Zukunft kann verwendet werden, um eine Vielzahl von verschiedenen Stimmen.

Scharf auf der Zunge

Wohl die größte Einschränkung WaveNet System war, dass die für Ihre Arbeit erforderlich ist das Vorhandensein einer riesigen Menge Rechenleistung, und selbst bei Erfüllung dieser Bedingung ist es nicht anders Arbeitsleistung. Zum Beispiel für die Erzeugung von 0,02 Sekunden Ton Ihr benötigt etwa 1 Sekunde Zeit.

Ein Jahr später arbeiten die Ingenieure DeepMind immer noch einen Weg gefunden, wie Sie zu verbessern und optimieren das System so, dass es nun zu produzieren in der Lage ist das rauhe Ton von einer Sekunde nur 50 Millisekunden, was 1000 mal schneller, Ihre ursprünglichen Fähigkeiten. Darüber hinaus Experten gelang es, erhöhen die Audio-Abtastrate mit 8-bit bis 16-bit, was positiv auf die Tests mit Beteiligung der Zuhörer. Dank diesem Erfolg, für WaveNet öffnete den Weg zur Integration in solche Consumer-Produkte wie Google Assistant.

Im Moment WaveNet kann verwendet werden, um englische und japanische Stimmen über Google Assistant und alle Plattformen, die die digitale Unterrichtsassistent. Da kann das System erstellen eine Besondere Art von Stimmen, je nachdem, welcher Satz von Proben wurde Ihr gewährt für die Ausbildung, dann bald Google, wahrscheinlich, umsetzen in WaveNet Unterstützung синтезации realistische Sprache und in anderen Sprachen, und namentlich unter Berücksichtigung Ihrer lokalen Dialekte.

Sprech-Schnittstellen werden immer mehr und mehr verbreitet auf verschiedenen Plattformen, aber Ihre ausdrückliche unnatürliche Klang der Natur stößt viele potenzielle Nutzer. Die versuche des Unternehmens DeepMind perfektionieren diese Technologie wird sicherlich dazu beitragen, eine stärkere Verbreitung solcher Sprachsysteme, sowie verbessern die Benutzererfahrung von Ihrer Verwendung.

Mit Beispielen der englischen und der japanischen synthetisierte Sprache mit Hilfe von neuronalen Netzwerk WaveNet finden Sie unter diesem Link.

Ein neuronales Netz gelernt nahezu perfekt die menschliche Stimme zu kopieren
Nikolai Hizhnyak