Microsoft AI Slår Människor på taligenkänning

Microsofts Artificiell Intelligens och Research Unit tidigare i veckan rapporterade att dess taligenkänningsteknik
hade överträffat resultat av mänskliga transcriptionists.

Laget förra månaden publicerade en
papper som beskriver dess systemets noggrannhet, som sägs vara bättre än IBM: s berömda Watson artificiell intelligens.

Felfrekvensen för människor i stor utsträckning används för
NIST 2000-test som är 5,9 procent för Växel del av uppgifterna, och 11,3 procent för CallHome del, team sagt.

Laget bättre på att konversera system för erkännande som utvecklats bättre än IBM: s med cirka 0,4 procent, rapporterade det.

Denna förbättring är viktigt, konstaterade Anne Moxie, senior analytiker på Nucleus Research.

Medan taligenkänning ger ett enklare sätt för människor att interagera med teknik, “det ser inte antas förrän den har extremt låg felfrekvens,” sade hon till TechNewsWorld.

Google, IBM och Microsoft är bland de företag som arbetar på taligenkänningssystem, men Microsoft är närmast att övervinna felprocenten fråga, Moxie sagt. “Därför, dess teknik är mest sannolikt att se antagande.”

Testa Teknik

Lagets framsteg ledde från noga med teknik och optimering av “convolutional och återkommande neurala nätverk.” De grundläggande strukturerna har länge varit känt, men det är först nyligen som de har vuxit fram som den bästa modeller för taligenkänning,” sitt betänkande staterna.

För att mäta mänskliga prestationer, laget lånefinansierade en befintlig pipeline-som Microsoft data transkriberas varje vecka av en stor kommersiell leverantör som kan utföra två-pass transkription, det är en mänsklig transcribes data från grunden, och sedan en andra lyssnare övervakar data för att utföra korrigering av fel.

Laget till NIST 2000 CTS utvärdering av data till arbetslista, vilket ger avskrivare samma ljud segment som lämnas till tal-system för erkännande — korta meningar eller meningsfragment från en signal kanal.

För taligenkänning tekniken, laget som används tre convolutional neural network (CNN) varianter.

En används för
VGG arkitektur, som sysselsätter mindre filter, är större, och gäller upp till fem convolutional lager innan sammanslagning.

Den andra var modellerad på
ResNet arkitektur, vilket ger en linjär omvandla av varje lager ingång till dess utgång. Den lag som tillämpas Parti Normalisering aktiveringar.

Den tredje CNN variation är LACE (lager-wise sammanhang expansion med uppmärksamhet) modell. LACE är en tidsfördröjning neurala nätverk (TDNN) variant.

Laget har också tränat en smält modell som består av en kombination av en ResNet och en VGG modell på senone bakre nivå. Senones, som är stater inom ramen beroende av telefoner, är de enheter för vilka observationen sannolikheter beräknas under automatisk taligenkänning (ASR).

Både bas-modellerna har oberoende av varandra utbildade och betyg fusion i vikt så var optimerad på data utveckling.

En sex lager dubbelriktad
LSTM användes för geografisk utjämning för att förbättra noggrannheten.

“Vår systemets prestanda kan hänföras till den systematiska användningen av LSTMs för både akustisk och språk för modellering samt CNNs i den akustiska modellen och omfattande kombination av kompletterande modeller,” enligt rapporten.

Microsoft Kognitiva Toolkit

Alla neurala nätverk i det slutliga systemet var tränade med Microsoft Kognitiva Toolkit (CNTK) på en Linux-baserad multi-GPU server farm.

CNTK är en öppen källa djupt lärande verktygslåda som ger möjlighet till en flexibel modell för definition, medan skalning mycket effektivt i flera Grafikprocessorer och flera servrar, laget sa.

Microsoft tidigare i år släppte CNTK på GitHub, under en open source-licens.

Röst

I “röststyrd diktering är inte längre bara används för att skriva text,” sade Alan Lepofsky, en förste analytiker på Constellation Research.

“Som chatt-centrerad gränssnitt som blir allt vanligare, viktiga affärsprocesser såsom beställning av objekt, ange kundregister, bokning av resa, eller interagera med kundtjänst poster kommer alla att vara röst-aktiverad”, sa han till TechNewsWorld.

För att illustrera sin poäng, Lepofsky konstaterade att han hade komponerat sina svar och mailade den till TechNewsWorld “helt enkelt genom att tala till min iPad.”


Richard Adhikari har skrivit om high-tech för ledande publikationer i industrin sedan 1990-talet och undrar om det hela leder till. Kommer inopererade RFID-chip i människor vara Vilddjurets Märke? Kommer nanotekniken att lösa våra kommande livsmedelskris? Gör Sturgeons Lag håller fortfarande sant? Du kan ansluta med Richard på
Google+.


Date:

by