Microsoft AI Beats Mennesker på Talegjenkjenning

Microsoft er Kunstig Intelligens og Research Unit tidligere denne uken rapporterte at dens talegjenkjenning teknologi
hadde overgått ytelse av menneskelig skrivere.

Teamet forrige måned publiserte en
papir som beskriver sin systemets nøyaktighet, sies å være bedre enn av IBM ‘ s berømte Watson kunstig intelligens.

Feilraten for mennesker på den mye brukt
NIST 2000 test sett 5,9 prosent for Sentralbord del av data, og 11.3 prosent for CallHome del, team sa.

Teamet forbedret på conversational gjenkjennelse system som bedre enn IBMS av om 0.4 prosent, det rapportert.

At forbedring er viktig, bemerket Anne Moxie, senior analytiker i Nucleus Research.

Mens talegjenkjenning gir en enklere måte for mennesker til å samhandle med teknologi, “det vil ikke se adopsjon før den har ekstremt lave feil priser,” fortalte hun TechNewsWorld.

Google, IBM og Microsoft er blant de selskaper som arbeider på talegjenkjenning systemer, men Microsoft er den nærmeste til å overvinne feil pris problemet, Moxie sa. “Derfor, sin teknologi, er det mest sannsynlig å se adopsjon.”

Testing av Teknologi

Lagets fremgang resulterte fra det forsiktig konstruksjon og optimalisering av “convolutional og tilbakevendende nevrale nettverk.” De grunnleggende strukturene har lenge vært godt kjent, men “det er bare nylig at de har dukket opp som de beste modellene for talegjenkjenning,” sin rapport stater.

For å måle menneskelig ytelse, teamet benyttet en eksisterende rørledning som Microsoft data er transkribert ukentlig av en stor kommersiell leverandør utføre to-pass transkripsjon-det er et menneske transcribes data fra bunnen av, og deretter en andre lytteren overvåker data til å utføre feilretting.

Teamet lagt NIST 2000 CTS evaluering av data til arbeidsliste, noe som gir avskrivere samme lyd segmenter som er levert til talegjenkjenning system — korte setninger eller setning fragmenter fra et signal kanal.

For talegjenkjenning teknologi, teamet brukte tre convolutional neural network (CNN) varianter.

En brukt
VGG arkitektur, som sysselsetter mindre filtre, er dypere, og gjelder frem til fem convolutional lag før sammenslåing.

Den andre ble modellert på
ResNet arkitektur, som legger til en lineær forvandle av hvert lag innspill til sin produksjon. Teamet anvendt Batch Normalisering aktiveringer.

Den tredje CNN variant er BLONDER (lag-messig sammenheng utvidelse med hensyn) – modellen. BLONDER er en tid nevrale nettverk (TDNN) variant.

Teamet har også trent en integrert modell som består av en kombinasjon av en ResNet og en VGG modell på senone posterior nivå. Senones, som er delstater innenfor en kontekst-avhengige telefoner, er de enhetene som observasjon sannsynlighetene er beregnet under automatisk talegjenkjenning (ASR).

Både base-modellene ble uavhengig trent og score fusion vekt så var optimalisert på utvikling av data.

En seks-lag toveis
LSTM ble brukt til geografisk utjevning for å forbedre nøyaktigheten.

“Vårt system ytelse kan knyttes til systematisk bruk av LSTMs for både akustisk modellering og språk, samt CNNs i den akustiske modellen, og omfattende kombinasjon av komplementære modeller,” heter det i rapport.

Microsoft Kognitiv Verktøykasse

Alle nevrale nettverk i det endelige systemet ble trent med Microsoft Kognitiv Toolkit (CNTK) på en Linux-basert multi-GPU-server farm.

CNTK er en åpen kildekode-dybdekunnskap verktøykasse som gjør det mulig for fleksible modellen definisjon mens skalering på en svært effektiv måte på tvers av flere Gpuer og flere servere, team sa.

Microsoft tidligere i år utgitt CNTK på GitHub, under en lisens for åpen kildekode.

Stemmen

“Voice diktering er ikke lenger bare blir brukt for å komponere tekst,” sa Alan Lepofsky, en rektor analytiker i Konstellasjonen Forskning.

“Som chat-sentriske grensesnitt bli mer utbredt, kjernevirksomhet slik som bestilling av varer, inn kunde-poster, booking reise, eller i samspill med kunden service poster vil alle stemme-aktivert,” fortalte han TechNewsWorld.

For å illustrere sitt poeng, Lepofsky bemerket at han hadde komponert sin respons og sendt det til TechNewsWorld “bare ved å snakke til min iPad.”

Richard Adhikari har skrevet om high-tech for ledende publikasjoner siden 1990-tallet og under der det er alle fører til. Vil det RFID-chips i mennesker være Dyrets Merke? Vil nanotech løse våre kommende mat krise? Gjør Stør ‘ s Lov fortsatt holder sant? Du kan koble til med Richard på
Google+.