Ein Algorithmus Generiert Unheimlich treffsicher Portraits Basiert Nur Auf jemandes Stimme

Screenshot: Arxiv

Technologie kann eine Menge lernen über uns, ob wir es wollen oder nicht. Sie können herausfinden, was wir mögen, wo wir schon, wie wir uns fühlen. Es kann uns sogar sagen oder tun Dinge, die wir nie gesagt oder gemacht. Und entsprechend der neuen Forschung, kann es beginnen, um herauszufinden, wie Sie Aussehen basiert einfach nur auf den Klang Ihrer Stimme.

MIT-Forscher veröffentlicht eine Studie im vergangenen Monat genannt Speech2Face: Lernen Sie das Gesicht Hinter einer Stimme, die untersucht, wie ein Algorithmus generiert eine Fläche basierend auf einer kurzen audio-Aufnahme von der person. Es ist nicht eine genaue Darstellung des Sprechers, sondern basiert auf den Bildern in der Zeitung Stand, das system war in der Lage, ein image zu erstellen von einer nach vorn gerichteten Gesicht mit neutralem Ausdruck mit genauen Geschlecht, Rasse und Alter.

Die Forscher trainierten die tiefen neuronalen Netzes auf Millionen von Bildungs-YouTube-clips mit über 100.000 verschiedene Lautsprecher, so das Papier. Während die Forscher beachten Sie, dass Ihre Methode nicht erzeugen genaue Bilder von einer person basierend auf diesen kurzen audio-clips, die Beispiele in der Studie zeigen, dass die daraus resultierenden portraits auf unheimliche Weise ähneln, was die person eigentlich aussieht. Es ist nicht unbedingt ähnlich genug, dass Sie in der Lage wäre, zu identifizieren, jemand basierend auf dem Bild, aber es hat signal die neue Realität, dass selbst in einer rudimentären form, einen Algorithmus vorstellen können—und das zu erzeugen, was jemand sieht, basiert ausschließlich auf Ihre Stimme.

Die Forscher tun-Adresse ethische überlegungen in das Papier, nämlich um die Tatsache, dass Ihr system nicht offenbart, die “wahre Identität einer person”, sondern schafft eine “Durchschnittliche Gesichter.” Dies ist, um sicherzustellen, dass es nicht eine Verletzung der Privatsphäre. Jedoch, die Forscher haben Anlass zu einigen heiklen ethischen Fragen, die mit der Art der Daten, die Sie verwendet für Ihr Modell. Eine der Personen, die in das dataset sagte Schiefer, dass er sich nicht erinnern Unterzeichnung einer Verzichtserklärung für das YouTube-video, das er eroberte, endete gefüttert durch den Algorithmus. Aber die videos sind öffentlich zugängliche Informationen, und so rechtlich, diese Art von Zustimmung nicht erforderlich war.

“Seit mein Bild und Stimme wurden herausgegriffen und als Beispiel in der Speech2Face Papier, anstatt nur ein Datenpunkt in eine statistische Untersuchung wäre es gewesen, höflich zu erreichen, um mich zu informieren oder zu Fragen für meine Erlaubnis,” Nick Sullivan, Leiter der Kryptographie bei Cloudflare, die verwendet wurde in der Studie, sagte Schiefer.

Die Forscher zeigen in Ihrer Studie, dass das dataset, das Sie verwendet, ist nicht eine genaue Darstellung der Welt-Bevölkerung-da war es nur das ziehen aus einer bestimmten Teilmenge von videos auf YouTube. Es ist daher voreingenommen—ein häufiges Problem unter machine learning datasets.

Es ist sicherlich schön, dass der Forscher wies auf die ethischen überlegungen, die mit Ihrer Arbeit. Jedoch, da die Fortschritte in der Technologie zu gehen, Sie werden nicht immer Durchlaufen werden und bereitgestellt von teams oder Einzelpersonen mit guten Absichten. Es gibt natürlich eine Reihe von Möglichkeiten, in denen diese Art von system kann ausgenutzt werden, und wenn jemand findet einen Weg zu schaffen, noch mehr realistische Darstellungen von jemanden beruhen einfach auf eine audio-Aufnahme, es weist auf eine Zukunft, in der Anonymität wird zunehmend schwieriger zu erreichen. Ob Sie es wollen oder nicht.

Teilen Sie Diese Geschichte