Microsoft ‘ s Artificial Intelligence and Research Unit tidligere denne uge rapporterede, at dets talegenkendelse teknologi
havde overgået udførelsen af menneskers transcriptionists.
Holdet i sidste måned offentliggjort en
papir, der beskriver dens systemets nøjagtighed, siges at være overlegen i forhold til, at IBM ‘ s berømte Watson kunstig intelligens.
Fejlprocenten for mennesker på den udbredte
NIST 2000 test, der er 5,9 procent for Omstilling del af data, og 11,3 procent for CallHome del, holdet sagde.
Holdet forbedret på samtale anerkendelse system, der har klaret sig bedre end IBM ‘ s med omkring 0,4 procent, er det rapporteret.
Denne forbedring er vigtigt, bemærkede Anne Moxie, senior analytiker hos Nucleus Research.
Mens talegenkendelse giver en nemmere måde for mennesker at interagere med teknologi, “det vil ikke se vedtagelse, indtil det har meget lave fejlprocenter,” fortalte hun TechNewsWorld.
Google, IBM og Microsoft er blandt de virksomheder, der arbejder på talegenkendelse-systemer, men Microsoft er tættest på at overvinde den fejl rate spørgsmål, Moxie sagde. “Derfor, dens teknologi er den mest sandsynlige til at se vedtagelse.”
Afprøvning af Teknologi
Holdets fremskridt var omhyggelig teknik og optimering af “convolutional og tilbagevendende neurale netværk.” De grundlæggende strukturer har længe været kendt, men “det er først for nylig, at de er dukket op som de bedste modeller til talegenkendelse,” sin rapporten.
Til at måle den menneskelige præstation, holdet gearede en eksisterende rørledning, som Microsoft data er transskriberet ugentlige af en stor kommerciel leverandør, der udfører to-pass transskription-som er, et menneske overfører data fra bunden, og derefter en anden lytter overvåger data til at udføre fejlretning.
Holdet tilføjet NIST 2000 CTS evaluerings data til arbejdsliste, der giver afskrivere den samme lyd segmenter som system til talegenkendelse — korte sætninger eller sætning fragmenter fra et signal kanal.
For talegenkendelse teknologi, teamet har brugt tre convolutional neurale netværk (CNN) – varianter.
Brugt
VGG arkitektur, der beskæftiger mindre filtre, er dybere, og gælder i op til fem convolutional lag, inden sammenlægning.
Den anden var inspireret på
ResNet arkitektur, som tilføjer en lineær omdanne hvert lag ‘ s input til output. Holdet anvendes Batch Normalisering aktiveringer.
Den tredje CNN variation er den BLONDE (lag-kloge forbindelse udvidelse med opmærksomhed) model. BLONDE er en forsinkelse, neurale netværk (TDNN) variant.
Holdet trænede også en sammensmeltet model bestående af en kombination af en ResNet og en VGG model på senone posterior niveau. Senones, som er stater i en kontekst-afhængige af telefoner, er den enhed, for hvilken observation sandsynligheder er beregnet i automatisk talegenkendelse (ASR).
Begge modeller blev uafhængigt uddannet og score fusion vægt, så blev der optimeret på udvikling af data.
En seks-lags tovejskommunikation
LSTM blev brugt til rumlig udjævning for at forbedre nøjagtigheden.
“Vores system er resultater, der kan henføres til den systematiske brug af LSTMs for både akustisk og sprog modellering samt CNNs i akustisk model, og den omfattende kombination af komplementære modeller,” hedder det i rapporten.
Microsoft Kognitive Værktøjskasse
Alle neurale netværk i det endelige system blev trænet med Microsoft Kognitive Toolkit (CNTK) på en Linux-baseret multi-GPU-server farm.
CNTK er et open source dyb læring toolkit, der giver mulighed for fleksibel model, definition, mens skalering meget effektivt på tværs af flere Gpu ‘ er og flere servere, holdet sagde.
Microsoft tidligere på året udgivet CNTK på GitHub, under en open source licens.
Stemme
“Voice diktering er ikke længere kun bliver brugt til at komponere tekst,” sagde Alan Lepofsky, en ledende analytiker hos Constellation Research.
“Som chat-centreret grænseflader bliver mere udbredt, core-business-processer, såsom bestilling af varer, indtastning af kundeoplysninger, bestilling af rejser, eller interagere med kundeservice registreringer vil alle være stemme-aktiveret,” fortalte han TechNewsWorld.
For at illustrere sin pointe, Lepofsky bemærkede, at han havde skrevet sit svar, og sendt det til TechNewsWorld “, blot ved at tale til min iPad.”