Snart Kommer Vi att Kunna Designa Egna Ljud med Röst Och Gester

Soon We Will be Able to Design Custom Sounds with Voice And Gesture

Det första en arkitekt eller grafisk designer kommer att göra i början av ett projekt är att ta fram några preliminära skisser — bara för att grov ut sina idéer på papperet, kanske förstärkt med datorstödd design av programvara. Men ljud designers inte har liknande verktyg. Ett konsortium av Europeiska forskare försöker att ändra på detta genom att utveckla en svit av verktyg för att skissa ljud, baserat på rösten och gester.

“Om du är en arkitekt och vill att skissa på ett hus, kan du enkelt göra det på ett skissblock,” forskarna skrev i en sammanfattning av deras arbete. “Men vad gör du om du är en ljuddesigner och vill snabbt skissa ljudet av en ny motorcykel?” Den vanliga verktyg — syntar, samplers, och sekvenser, till exempel — är komplicerade och kräver en hel del utbildning för att använda. De är bara inte så enkelt, snabbt och intuitivt som ett skissblock.

Ljudet är svårt att beskriva i ord, vilket är varför de flesta av oss ta till en kombination av gest och vokal härmning när, säg, försöker förmedla till någon annan att en bil går vrooom. Den mänskliga rösten är som en inbyggd ljud synthesizer.

“Människor kan känna igen ganska väl vad en person imiterar,” Guillaume Lemaitre, en forskare vid Ircam i Paris, Frankrike, berättade Gizmodo via e-post. “Så vår dröm verktyg skulle vara en synthesizer som vi direkt kan interagera med, [hjälp] vår röst och gester, precis som vad vi gör naturligt när vi talar till någon. Idealiskt, synthesizer skulle förstå imitationer samma sätt som en människa skulle göra, och skapa ljud i enlighet med detta.”

Det är målet med SkAT-VG (Skissa Audio-Teknik med Röst och Gester), ett treårigt tvärvetenskapligt samarbetsprojekt mellan med fyra partners. Ircam ansvarar för aspekter som rör synen psykologi, gest analys, signalbehandling, och maskininlärning. Kungliga tekniska högskolan (KTH) i Stockholm, Sverige, är hantering fonetik, medan Iuav Universitetet i Venedig, Italien, fokuserar på en sund design och ljudsyntes. Och första Moseboken, ett företag baserat i Aix-en-Provence som bedriver en sund studier och utvecklar audio-teknik för ljud-design, är ansvarig för att användaren studier och prototyp integration.

Sponsrade

Det första steget är att få en bättre förståelse av hur människor använder mimik och gester för att kommunicera olika ljud. Så Lemaitre och hans Ircam kollegor avrundas uppåt 50 volontärer och hade dem lyssna på inspelade ljud, sedan imitera dessa ljud. Det var mekaniska ljud (som att trycka på och skrapa), ljud av gemensamma objekt (bilar, blandare och sågar) och även dator ljud, som ljudeffekterna i tv-spel. Alla deltagare var filmad med en GoPro kamera, som är försedda med en kropp-spårning kinect och accelerometrar som är knuten till deras handleder. De fångade också processen på video:

Lemaitre medger att de haft en del missförstånd i studien. Till exempel, “Vi trodde först att folk skulle dra banan för några akustiska egenskaper — som beck eller intensitet, som med sina händer i luften, som att höja handen för att imitera planen att gå upp”, sade han. Men detta visade sig inte vara fallet. Istället, gester användes mer för betoning, i en metaforisk mode stereotypt förknippas med italienska tecken i film och tv. “De verkade vara mer som symboler som tyder på att en viss övergripande egenskaper hos ljud,” Lemaitre sagt.

Baserat på att han och hans medarbetare drog slutsatsen att gester inte skulle vara särskilt användbart som ett medel för att just styra beteendet i en synt i realtid, som konsortiets medlemmar ursprungligen trodde skulle vara möjligt. Sång imitationer är långt mer effektiva för detta ändamål. “Röst kan återge exakt högre tempo än gester, och är mer exakt än gester när återge komplexa rytmiska mönster,” enligt Lemaitre sammanfattning.

Nästa steg är att bygga faktiska prototyper av skissa verktyg, baserat på vad vi lärt oss hittills, och testa hur väl de fungerar i verkliga förhållanden. Lemaitre sade konsortiet kommer att hålla en speciell händelse under våren i södra Frankrike, närmare bestämt för ljud designers, vilket ger dem uppgiften att skapa specifika ljud med prototypen verktyg och utvärdera för-och nackdelar av prototyper.

Praktiska användningsområden åt sidan, Lemaitre tycker studier av sång imitationer och gester kan också vara till nytta för forskare intresserade av auditiv perception och kognition. Studier som den ovan skulle kunna förbättra vår förståelse för hur ljud är kodat i minnet.

Referens:

Rocchesso, D., Lemaitre, G., Susini, P., Ternström, S., & Boussard, P. (2015) “Skissa Ljud med Röst och Gester,” Samspelet 22(1): 38-41.

[Via Acoustical Society of America]

Bild: Utsikt Bortsett/Shutterstock