Dit Kunstmatig Intelligente Spraak Generator Kan Nep iemands Stem

GIF Credit: 1987Maou

De menselijke stem, met al haar subtiliteit en nuance, blijkt een uitzonderlijk moeilijk om computers te evenaren. Met behulp van een krachtig nieuw algoritme, een Montreal-based AI startup heeft een stem generator die kunnen lijken op vrijwel elke persoon de stem, en zelfs het toevoegen van een emotionele punch wanneer dat nodig is. Het systeem is niet perfect, maar het is de voorbode van een toekomst als stemmen, zoals foto ‘ s, kan gemakkelijk worden vervalst.

Wanneer Siri, Alexa, of onze GPS met ons te praten, het is vrij duidelijk dat we worden aangesproken door een machine. Dat komt omdat vrijwel elk tekst-naar-spraak-systeem op de markt is gebaseerd op een vooraf opgenomen reeks van woorden, zinnen en uitdrukkingen (opgenomen via de voice-actors), die vervolgens aan elkaar geregen in een Frankenstein-achtige manier te produceren van complete woorden en zinnen. Het eindresultaat is een vocale levering dat klinkt behoorlijk saai, robot, en soms lachwekkend. Deze benadering tot spraak-synthese betekent ook dat we vast te zitten luisteren naar dezelfde vooraf opgenomen, monotone stem over en weer.

In een poging om te injecteren leven in het geautomatiseerde stemmen die komen van onze apps AI opstarten Liervogel heeft een voice-imitatie algoritme dat kan lijken op een persoon ‘ s stem, en ze lezen een tekst met een vooraf bepaalde emotie of intonatie. Ongelooflijk, hij kan dit doen na het analyseren van slechts enkele tientallen seconden van vooraf opgenomen audio. In een poging om de promotie van haar nieuwe tool, Liervogel geproduceerd meerdere audio-samples met behulp van de stem van Barack Obama, Donald Trump, en Hillary Clinton.

Liervogel de demo ‘ s ook een showcase van de vrijwel onbeperkte catalogus van stemmen, en het vermogen van het systeem om te verwoorden dezelfde zin met verschillende intonaties.

Dit is allemaal gemaakt door mogelijk door het gebruik van kunstmatige neurale netwerken, die functioneren op een wijze vergelijkbaar met de biologische neurale netwerken in de hersenen van de mens. In wezen, het algoritme leert patronen herkennen in een persoon ‘ s speech, en vervolgens reproduceren van deze patronen tijdens gesimuleerde spraak.

“We trainen onze modellen op een grote dataset met duizenden luidsprekers,” Jose Sotelo, een lid van het team op Liervogel en een spraaksynthese-expert, vertelde Gizmodo. “Dan, voor een nieuwe speaker we het comprimeren van hun informatie in een kleine sleutel met hun stem DNA. Wij gebruiken deze toets om te zeggen dat nieuwe zinnen.”

Het eindresultaat is verre van perfect—de monsters nog steeds vertonen digitale artefacten, duidelijkheid problemen, en andere rariteiten—maar er is weinig twijfel die wordt nagebootst door de spraak generator. Wijzigingen in intonatie zijn ook waarneembaar. In tegenstelling tot andere systemen, Liervogel de oplossing vereist minder gegevens per luidspreker produceren van een nieuwe stem, en het werkt in real-time. Het bedrijf is van plan om haar instrument om bedrijven in nood van spraaksynthese oplossingen.

“We zijn momenteel aan het werven van fondsen en de groei van onze engineering team,” zei Sotelo. “We werken aan de verbetering van de kwaliteit van de audio om het minder te maken van robots, en wij hopen om te beginnen met het beta testen binnenkort.”

Onnodig te zeggen dat deze vorm van spraaksynthese introduceert tal van ethische problemen en bezorgdheid over de veiligheid. Uiteindelijk, een verfijnde versie van dit systeem kan worden gerepliceerd naar een persoon de stem met een ongelooflijke nauwkeurigheid, waardoor het vrijwel onmogelijk voor een mens luisteraar te onderscheiden van het origineel van de emulatie. De dag komt wanneer vocale meningsuiting, zoals een afbeelding bewerkt in Photoshop, kan worden gemanipuleerd zonder dat we het weten. Gewetenloze mensen konden de nep een toespraak van een politicus, het toevoegen van nog een andere laag naar de opkomende post-waarheid omgeving. Hackers kunnen gebruik maken van spraaksynthese voor social engineering, voor de gek zelfs de meest zorgvuldige security experts. De mogelijkheden zijn bijna eindeloos.

Deze potentieel nadelige effecten zijn niet verloren op Liervogel, die stelt dat de tijd die we kunnen vertrouwen audio-opnames op het punt om te komen tot een einde.

“Serieus nemen We de potentieel schadelijke toepassingen van onze technologie,” Sotelo vertelde Gizmodo. “We willen met deze technologie worden gebruikt voor goede doeleinden: het teruggeven van de stem aan mensen die verloren aan de ziekte, in staat te zijn jezelf opnemen in de verschillende fasen in uw leven en uw stem te horen later, enz. Aangezien deze technologie kan worden ontwikkeld door andere groepen met een kwaadaardige doeleinden, wij geloven dat de juiste ding om te doen is om het openbaar en bekend, dus we stoppen vertrouwen op audio-opnamen [bewijs].”

Geen twijfel mogelijk, we hebben om te starten tweede-raden audio-opnamen van meningsuiting snel, maar de oplossingen kunnen ook worden ontwikkeld voor het vaststellen van de authenticiteit van vocaal opnames. Mensen kunnen misleiden door dergelijke systemen, maar computers niet—tenminste, niet voor een tijdje. Bij het analyseren van de golfvorm, of frequenties van de menselijke spraak, een hoge resolutie opname kan leiden tot een enorme hoeveelheid gegevens voor een computer te analyseren. Het zal een lange, lange tijd voordat een spraaksynthese-programma kan repliceren elk aspect van een persoon kenmerkende spraak, zoals de fijnere details van de vocale timbre (d.w.z. de kwaliteit van meningsuiting), en de mond geluiden, zoals ademhaling, tong geluiden, en lip-smakkend, tot het punt waar zelfs een machine kan niet detecteren het verschil. Er zijn andere aspecten van een opname te overwegen. Bijvoorbeeld, de afwezigheid van achtergrond geluiden, de aanwezigheid van een vervalst akoestische ruimte, of kunstmatig ingevoerd ambient geluiden moeten gemakkelijk detecteerbaar door een machine ontworpen voor de taak.

Uiteindelijk, echter, een spraaksynthese-programma kunnen nep-al deze dingen, op dat moment, ons vermogen om te onderscheiden van de waarheid van de fabricage zal op de proef worden gesteld.

[Liervogel via Scientific American]