Screenshot: Der Joe Rogan Experience
In den letzten Jahren unheimlich treffsicher deepfake videos bekommen eine Menge Presse, aber die automatisierte Stimme-Replikation wurde leise Abgleiten in die uncanny valley als gut. Case in point: Die KI der Firma Dessa hat eine simulation der podcaster Joe Rogan ‘ s Stimme, die ist fast nicht von der realen Sache.
Hören Sie in diesem video, das Dessa in der vergangenen Woche veröffentlicht. Nach Dessa, die Stimme kommt aus einem machine-learning-Modell, und die Worte kommen aus der Texteingabe.
Sicher, Robo-Rogan hört sich nicht ganz so entspannt wie die Reale Sache ist, wenn er gesteinigt und auf einer Rolle mit einem Gast. Es klingt ein bisschen wie die leicht gestelzte Stimme, die er benutzen könnte, wenn er das Lesen eine Anzeige. Aber es ist unbestreitbar Rogan ‘ s “Stimme.”
Es ist besonders schwer, zu unterscheiden, ob oder nicht, die Stimme ist real, wenn die gehört nur in kurzen schnipseln. Um dies zu beweisen, Dessa veröffentlicht ein quiz—die, persönlich habe ich eine schlechte Note auf. Ich habe schon viel von der seine Stimme im Laufe der Jahre, und ich hatte eine schwierige Zeit zu sagen, der Unterschied zwischen Joe Rogan und Joe Fauxgan.
Wie The Verge darauf hingewiesen, Dessa hatte offensichtlich eine Menge material, mit zu arbeiten. Rogan soeben episode 1,299 seinem podcast, und die meisten dieser Episoden sind zwei bis drei Stunden. So Dessa könnte leicht Zugang zu tausenden von Stunden, die Rogan ‘ s voice zu verwenden, für die KI-training.
Die Dessa blog-post kündigt seine Rede-Synthese-Modell taucht in die gesellschaftlichen Auswirkungen dieser Technologie, denn “in den nächsten Jahren (oder auch früher), werden wir sehen, wie die Voraus-Technologie bis zu dem Punkt, wo nur ein paar Sekunden audio werden benötigt, um ein Leben zu kreieren-wie Replik von jeder Stimme auf dem Planeten”, so Dessa. “Es ist ziemlich f*cking scary.”
Die post legt ein paar Beispiele von ruchlosen Möglichkeiten, die Technologie könnte verwendet werden, einschließlich spam-Anrufer-Identität Mitglieder der Familie, die gefälschte Stimmen verwendet wird, um zu gewinnen high-security-clearance und audio-deepfakes von Politikern, die bewirken könnten, dass ein Aufstand oder Wahlen manipuliert.
Dessa bietet auch Beispiele dafür, was es sieht, als die guten Dinge, die kommen könnten von dieser Technologie, wie automatische Stimmen könnte, dass voice-Chat-Unterstützung, mehr Natürliche, verbesserte text-to-speech-Anwendungen für Menschen mit Behinderungen, und, äh, “eine Fitness-app, die enthält eine personalisierte pre-workout-pep talk von Arnold Schwarzenegger.”
Alle diese vorgeschlagenen Vorteile, ich muss sagen, don T scheinen zu überwiegen die dystopische Möglichkeiten, dass jemand in der Lage zu imitieren jemand anderes die Stimme.
Aufgrund dieser Implikationen, Dessa sagte, es ist nicht frei, sein Modell an die öffentlichkeit. Aber es ist wohl nur eine Frage der Zeit, bis wir zu haben, um über sorgen jemand droht, schicken unseren Chef eine Aufnahme von uns reden Natursekt in Ihrem Büro, wenn wir nicht senden die Betrüger 5.000 $in bitcoin.
Teilen Sie Diese Geschichte