Diese Künstlich Intelligente Speech-Generator Kann Fake Jedermann Stimme

GIF-Credit: 1987Maou

Die menschliche Stimme, mit all Ihrer Subtilität und nuance, erweist sich als eine außerordentlich schwierige Sache für Computer zu emulieren. Mit einem leistungsstarken neuen Algorithmus, der in Montreal-basierten AI-startup entwickelt eine Stimme generator, nachahmen kann praktisch jede person, die Stimme, und fügen Sie sogar eine emotionale Druck, wenn nötig. Das system ist nicht perfekt, aber es läutet eine Zukunft, wenn Stimmen, wie Fotos, kann leicht gefälscht werden.

Wenn Siri, Alexa oder unsere GPS-sprechen Sie uns an, es ist ziemlich offensichtlich, dass wir uns gesprochen durch eine Maschine. Das ist, weil praktisch jede text-to-speech-system auf dem Markt setzt auf eine aufgezeichnete Menge von Wörtern, Phrasen und äußerungen (aufgezeichnet von Sprechern), die dann aneinander gereiht in Frankenstein-wie die Mode zu produzieren, die vollständige Worte und Sätze. Das Endergebnis ist ein vocal Lieferung, das klingt ausgesprochen langweilig, Roboter -, und zuweilen lächerlich. Dieser Ansatz zur Sprachsynthese bedeutet auch, dass wir stecken das hören auf den gleichen pre-recorded, monotonen Stimme immer und immer wieder.

In einer Bemühung, um zu injizieren, einige Leben in der automatisierten Stimmen, kommen unsere apps, AI startup Lyrebird hat eine Stimme-imitation-Algorithmus, nachahmen kann jede person, die Stimme, und Las einen text mit einer vorgegebenen emotion oder intonation. Unglaublich, Sie können dies tun, nach der Analyse, nur ein paar Dutzend Sekunden der aufgezeichneten audio. In einer Bemühung zu fördern seinem neuen tool, Lyrebird produziert mehrere audio-samples mit den Stimmen von Barack Obama, Donald Trump, und Hillary Clinton.

Lyrebird – demos zeigen die nahezu unbegrenzten Katalog von Stimmen, und die Fähigkeit des Systems zu artikulieren, den gleichen Satz mit unterschiedlichen Betonungen.

Das ist alles mögliche durch den Einsatz von künstlichen neuronalen Netzen, die Funktion in einer ähnlichen Weise wie die biologischen neuronalen Netze im menschlichen Gehirn. Im wesentlichen besteht der Algorithmus lernt sich Muster erkennen, die in einer bestimmten person die Rede, und reproduzieren Sie anschließend diese Muster während der simulierten Rede.

“Wir bilden unsere Modelle auf einen riesigen Datensatz mit tausenden von Lautsprechern,” Jose Sotelo, ein team-Mitglied in Lyrebird und eine Sprachsynthese-Experte, sagte Gizmodo. “Dann, für eine neue Lautsprecher-wir komprimieren Ihre Informationen in einer kleinen Schlüssel mit Ihrer Stimme die DNA. Wir verwenden Sie diese Taste, um zu sagen, neue Sätze.”

Das Ergebnis ist weit entfernt von perfekt—die Proben weisen digitale Artefakte, Klarheit Probleme und andere unheimliche Begegnungen—aber es gibt wenig Zweifel, wer wird nachgeahmt, indem die Rede-generator. Änderungen in der intonation sind auch erkennbar. Im Gegensatz zu anderen Systemen, Lyrebird Lösung erfordert weniger Daten pro Lautsprecher zu produzieren, eine neue Stimme, und es funktioniert in Echtzeit. Das Unternehmen plant, bieten Ihre Tools, um Unternehmen in der Notwendigkeit der Sprachsynthese Lösungen.

“Wir sind derzeit die Beschaffung von Mitteln und das Wachstum unserer engineering team”, sagte Sotelo. “Wir arbeiten an der Verbesserung der Qualität der audio zu machen es weniger wie ein Roboter, und wir hoffen, beginnen die beta-Tests bald.”

Unnötig zu sagen, diese form der Sprachsynthese führt eine Vielzahl von ethischen Problemen und Bedenken bezüglich der Sicherheit. Schließlich, einer verfeinerten version dieses Systems könnte replizieren einer person Stimme mit unglaublicher Genauigkeit, wodurch es praktisch unmöglich für einen menschlichen Zuhörer zu erkennen, die original aus der emulation. Der Tag wird kommen, wenn vocal-Rede, wie Sie ein Bild mit Photoshop bearbeitet, manipuliert werden kann, ohne unser wissen. Skrupellose Individuen könnten fake eine Rede eines prominenten Politikers, hinzufügen noch eine weitere Schicht auf die sich abzeichnende post-Wahrheit-Umgebung. Hacker verwenden könnte, Sprachsynthese für social-engineering -, Narren sogar die meisten vorsichtig security-Experten. Die Möglichkeiten sind fast endlos.

Diese potenziell negativen Auswirkungen sind nicht verloren auf dem Lyrebird, der die Ansicht vertritt, dass die Zeiten, in denen wir Vertrauen können audio-recordings ist auf der Schwelle zu einem Ende kommen.

“Wir nehmen ernst, der potentiell gefährliche Anwendungen unserer Technologie,” Sotelo sagte Gizmodo. “Wir wollen mit dieser Technologie verwendet werden für gute Zwecke: dass wieder die Stimme, um die Menschen, die Sie verloren, um die Krankheit, die Lage zu erfassen, sich selbst in verschiedenen Phasen in Ihrem Leben und hören Sie Ihre Stimme, später, usw. Da diese Technologie entwickelt werden kann, die von anderen Gruppen mit bösartige Zwecke, wir glauben, dass die richtige Sache zu tun ist, um es öffentlich und bekannt, so stoppen wir, sich auf audio-Aufnahmen [als Beweis].”

Kein Zweifel, wir müssen zu Beginn der zweiten erraten, audio-Aufnahmen der Rede bald, aber Lösungen entwickelt werden könnten, zu prüfen, die Authentizität der vocal-recordings. Menschen können sich täuschen von solchen Systemen, aber Computer werden nicht—zumindest nicht für eine Weile. Bei der Analyse der Wellenform, oder die Frequenzen, der menschlichen Sprache, eine Aufnahme der hohen Auflösung ergeben können eine enorme Menge an Daten für einen computer zu analysieren. Es wird eine lange, lange Zeit, bevor ein Sprachsynthese-Programm repliziert werden können, jeden einzelnen Aspekt einer person die markante Rede, wie Sie die feineren details der vocal timbre (d.h. die Qualität der Sprache), und Mund Geräusche wie atmen, Zunge klingt, und Schmatzen, bis zu dem Punkt, wo sogar ein Computer kann nicht erkennen den Unterschied. Es gibt andere Aspekte der Aufnahme zu prüfen, wie gut. Zum Beispiel, die Abwesenheit von Störgeräuschen, das Vorhandensein einer fingierten akustischen Raum, oder künstlich eingeführt ambient-sounds sollten leicht nachweisbar durch eine Maschine für die Aufgabe.

Schließlich, jedoch, ein Sprachsynthese-Programm kann in der Lage sein, um fake-all diese Dinge, an dem Punkt, unserer Fähigkeit, Wahrheit zu erkennen, die aus der Fertigung auf den Prüfstand gestellt werden.

[Lyrebird via Scientific American]