Microsoft ‘ s samtale system til talegenkendelse – designet til præcist anerkender ord i en samtale, som mennesker gør – har nået et 5.1 procent af fejl, er det det laveste hidtil.
Denne milepæl betyder, at der for første gang, en computer kan genkende ord i en samtale samt en person ville.
“Vores forskning team nåede at 5,1 procent fejlprocent med vores system til talegenkendelse, en ny industri milepæl, der væsentligt oversteg den nøjagtighed har vi nået sidste år,” sagde Microsoft i et blogindlæg sent søndag.
Sidste år i oktober, holdet fra Microsoft Kunstig Intelligens og Forskning rapporteret et system til talegenkendelse, der gør de samme eller færre fejl end professionelle transcriptionists.
Forskerne havde derefter rapporteret et ord fejlprocent (WER) på 5,9 procent.
“Sidste år, Microsoft’ s tale og dialog forskergruppe annonceret en milepæl at nå menneskelige paritet på den ‘Tavle’ samtale talegenkendelse opgave, hvilket betyder, at vi havde skabt teknologi, der er anerkendt ord i en samtale såvel som professionelle menneskelige afskrivere,” sagde Xuedong Huang, Technical Fellow, Microsoft.
‘Omstilling’ er en samling af optagede telefonsamtaler, at tale forskning samfundet har brugt i mere end 20 år til benchmark talegenkendelse-systemer.
Opgaven indebærer at transskribere samtaler mellem fremmede mennesker, der diskuterer emner som sport og politik.
Holdet brugte “Microsoft Kognitive Værktøjskasse 2.1” (CNTK), den mest skalerbare dyb læring software til rådighed, for at udforske model arkitekturer.
Derudover Microsoft ‘s investering i cloud compute infrastruktur, specielt Azure Gpu’ er, medvirket til at forbedre effektiviteten og hastighed.
At nå menneskelig paritet med en nøjagtighed på lige fod med mennesker, har været en forskning målet for de sidste 25 år.
“Microsoft’ s vilje til at investere i langsigtet forskning er nu, der udbetaler udbytte for vores kunder i produkter og tjenester, såsom Cortana, Præsentation Oversætter, og Microsoft Kognitive Tjenester,” post-læse.
“At flytte fra at anerkende at forstå tale, er den næste store udfordring for tale-teknologi,” the post tilføjet.