Bientôt, Nous Allons être en Mesure de Concevoir des Sons Personnalisés avec de la Voix Et du Geste

Soon We Will be Able to Design Custom Sounds with Voice And Gesture

La première chose qu’un architecte ou un designer graphique va faire au début d’un projet est de produire quelques esquisses préliminaires, juste à la sortie approximative de leurs idées sur le papier, peut-être augmentée avec la conception assistée par ordinateur logiciel. Mais les concepteurs sonores n’ont pas d’outils similaires. Un consortium de chercheurs Européens, est à la recherche de changer que par le développement d’une suite de croquis outils pour le son, basée sur la voix et les gestes.

“Si vous êtes un architecte et souhaitez esquisse d’une maison, vous pouvez simplement dessiner sur un carnet de croquis,” les chercheurs ont écrit dans un résumé de leur travail. “Mais que faites-vous si vous êtes un concepteur sonore et veulent rapidement esquisser le son d’une nouvelle moto?” Les outils habituels de synthétiseurs, échantillonneurs, et les séquences, par exemple — sont complexes et nécessitent beaucoup de formation à l’utilisation. Ils sont tout simplement pas aussi simple, rapide et intuitive comme un carnet de croquis.

Le son est difficile à décrire par des mots, qui est pourquoi la plupart d’entre nous ont recours à une combinaison de geste de la voix et les mimiques quand, par exemple, essaie de transmettre à quelqu’un d’autre qu’une voiture va vrooom. La voix humaine est comme un générateur de sons du synthétiseur.

“Les gens reconnaissent assez bien ce que une personne imite,” Guillaume Lemaitre, chercheur à l’Ircam à Paris, France, a dit Gizmodo par e-mail. “Alors notre outil de rêve serait un synthétiseur que l’on pourrait interagir directement avec [aide] notre voix et les gestes, tout comme ce que nous faisons naturellement quand on parle à quelqu’un. Idéalement, ce synthétiseur permettrait de comprendre l’imitation de la même façon, une personne aurait à faire, et de créer des sons en conséquence.”

C’est le but de SkAT-VG (Croquis des Technologies Audio de la Voix et des Gestes), de trois ans interdisciplinaire projet de collaboration entre les quatre partenaires. L’Ircam est responsable des aspects liés à la perception de la psychologie, de la geste de l’analyse, du traitement du signal et de l’apprentissage machine. L’Institut Royal de Technologie (KTH) de Stockholm, en Suède, est la manipulation de la phonétique, tandis que l’Université Iuav de Venise, en Italie, se concentre sur la conception sonore et la synthèse sonore. Et la Genèse, une société basée à Aix-en-Provence qui mène des études et développe des technologies audio sound design, est en charge de l’utilisateur, les études et le prototype de l’intégration.

Sponsorisé

La première étape est d’acquérir une meilleure compréhension de la façon dont les gens utilisent les mimiques et la gestuelle pour communiquer les différents sons. Donc, Lemaitre et ses collègues de l’Ircam arrondi 50 bénévoles et a l’écoute de sons enregistrés, puis imiter les sons. Il y avait des bruits mécaniques (comme le tapping et le grattage), les sons de la commune des objets (voitures, des mélangeurs et des scies) et aussi les sons de l’ordinateur, comme les effets sonores de jeux vidéo. Tous les participants ont été filmés avec une caméra GoPro, et muni d’un organe de suivi de kinect et des accéléromètres attachés à leurs poignets. Il a également remporté le processus sur la vidéo:

Lemaitre admet qu’ils avaient des idées fausses entrer dans l’étude. Par exemple, “Nous avons d’abord pensé que les gens de dessiner la trajectoire de certaines caractéristiques acoustiques comme la hauteur ou l’intensité — les mains en l’air, comme élever votre main pour imiter de hauteur allant jusqu’,” dit-il. Mais cela s’est avéré ne pas être le cas. Au lieu de cela, les gestes étaient plus utilisées pour l’accent, dans une métaphore de la mode associés de façon stéréotypée italien personnages dans le film et la télévision. “Ils semblent être plus comme des symboles qui indiquent que certains d’ensemble des propriétés des sons,” Lemaitre dit.

Sur cette base, lui et ses collègues ont conclu que les gestes ne serait pas particulièrement utile comme un moyen de contrôler précisément le comportement d’un synthétiseur en temps réel, comme les membres du consortium à l’origine de la pensée serait possible. Imitation vocale sont beaucoup plus efficaces à cette fin. “La voix peut reproduire avec précision la plus élevée des tempos que des gestes, et est plus précis que les gestes lors de la reproduction de complexes motifs rythmiques”, selon Lemaitre résumé.

La prochaine étape est de construire des prototypes réels de l’esquisse outils, basés sur ce qui a été appris jusqu’à présent, et de tester la façon dont ils fonctionnent dans des conditions réelles. Lemaitre a déclaré le consortium tiendra un événement spécial ce printemps dans le sud de la France, en particulier pour les concepteurs sonores, leur confiant la tâche de créer des sons avec le prototype d’outils et d’évaluer les avantages et les inconvénients des prototypes.

Utilisations pratiques de côté, Lemaitre pense que les études de l’imitation vocale et gestuelle pourrait également s’avérer bénéfique pour les neuroscientifiques intéressés à la perception auditive et de la cognition. Des études comme celle-ci pourraient améliorer notre compréhension de la façon dont les sons sont codées en mémoire.

Référence:

Rocchesso, D., Lemaitre, G. Susini, P., Ternström, S., & Boussard P. (2015) “Esquisse Sonore avec la Voix et le Geste,” Interactions 22(1): 38-41.

[Via Acoustical Society of America]

Image: Vue De Distance/Shutterstock