For Computere, For Det er Svært at Lære at Tale Kinesisk – MIT Technology Review

Forskere kalder ofte 2017 år-til-øre computer i Kina. At udnytte de seneste fremskridt inden for stemmegenkendelse og naturligt sprog forarbejdning, e-handel gigant Alibaba og søgegigant Baidu har både været at udvikle teknologi til at knække voice-baseret kommunikation. Nu stemme-drives produkter, der er afledt fra Baidu og Alibaba ‘ s teknologi er på vej til det Kinesiske marked.

Den Tmall Genie, som har Alibaba ‘ s stemme assistent, AliGenie, bygget i, er beslægtet med at Amazon Echo. Det kan placere online-ordrer, tjekke vejret, afspille din favorit musik og kontrollere andre smarte enheder i dit hjem via stemmekommandoer.

Baidu er DuerOS samtale platform er blevet tilføjet som en funktion i produkter som en hjem-assistent robot, en tv-set-top-boks, og en HTC-smartphone. Det har lignende funktioner til at AliGenie og andre voice assistenter, samt rudimentære evner til at gennemføre en tilfældig chat, og selskabet siger, at det har modtaget et stort antal ordrer, der for sin DuerOS development kit.

Kun Jing, general manager af Baidu Duer business unit, der forventer, at mange flere virksomheder at komme ind på området i år, til dels motiveret af succes i produkter som Ekko i U. S marked, som har vakt interessen for Kinesisk tech investorer.

IDC forudsiger, at der i 2020, 51 procent af smart-kørsel industri og 68 procent af mobiltelefon og wearables industrien i Kina vil have en samtale-baseret AI-system, der er bagt i. Ligesom touch skærm lavet interagere med en mobil enhed, så meget lettere, samtale grænseflader vil gøre interaktion mere naturligt og trække flere folk ind i forbundet verden, siger Jing, der fører tilsyn med den udvikling af DuerOS.

Abonnere på Download
Hvad der er vigtigt inden for teknologi og innovation, der leveres til dig hver dag.

Tilmeld

Tak — tjek venligst din e-mail for at bekræfte dit abonnement.
Forkert e-mail-format

Administrer dine indstillinger for nyhedsbrev

Voice-baseret computing er en god mulighed for Kina. I dag skrive Kinesisk på en typisk QWERTY-tastatur bygger på et system kaldet “pinyin”, der er baseret på tegnene’ udtale, men da der er fire toner i Mandarin og hver har en forskellig betydning, brugeren skal omhyggeligt vælge den rigtige karakter fra en drop-down menu efter at skrive udtale. En fælles stavelse som “yi” kan svare til 60 eller mere hyppigt brugte Kinesiske tegn. Nogle input-metoder kan prioritere de mest sandsynlige karakter i henhold til den sammenhæng, men de er ikke altid præcise. Ikke overraskende, brugere af mobile teknologier som den populære WeChat kommunikation app har en tendens til at forlade verbale beskeder til hinanden, snarere end den skrevne tekster, typisk i USA

I Kina i dag, voice assistant technology virker ved at vende en brugers stemme-kommandoer i tekst og skaber en reaktion, der er baseret på betydningen af teksten. Denne proces fungerer temmelig godt, for task-baseret kommandoer—at tjekke vejret, eller lede efter den engelske oversættelse af en bestemt Kinesiske ord—men det kan ikke opretholde et back-og-tilbage til at tale om flere emner.

Løse samtale computing vil kræve en overvindelse af nogle af de udfordrende forhold af det Kinesiske sprog. I Kinesisk, for eksempel, de samme karakterer arrangeret i en anden rækkefølge betyder forskellige ting, og selv når de er arrangeret i samme rækkefølge, som de kan have forskellige betydninger afhængigt af, hvad der kommer før eller efter dem. Hertil kommer, at skriftlig Kinesisk, ikke har rum naturligt at opdele ord som engelsk gør. Så Kinesiske naturligt sprog forarbejdning af forskere, der skal undervise i deres algoritmer, hvor man kan indsætte mellemrum for at fastslå den korrekte betydning af et bestemt kombination af tegn. Fraværet af Kinesiske verbum tider—der er ingen særlige former for fortid, nutid, eller fremtid—også gør det til en udfordring for maskiner til at dechifrere tidslinje af en sekvens.

Kinesiske naturligt sprog forarbejdning forskere er ved at tackle andre udfordringer, alt for Mange dialekter findes nogle, som er indbyrdes uforståelige, og samme udtryk kan betyde forskellige ting i forskellige sammenhænge.

Zhiyong Wu, en professor ved Tsinghua Universitet, der studerer naturligt sprog, forståelse, bemærker, at for computere, for virkelig at forstå den hensigt af et menneske taler og kommunikere hensigtsmæssigt, de vil have til at samle op subtile ledetråde, såsom intonation og stress. De vil også nødt til at forstå følelser, da mennesker ” beslutningstagning er ikke udelukkende baseret på logik, noter Jia Jia, en professor ved Tsinghua Universitet, der studerer sociale affective computing.

For at gøre sit system smartere, Baidu indført en “træner” tilstand i sin platform i år for at gøre det muligt for udviklere at bidrage sprog data i realtid via en indbygget annotator bot. Bot modtager udvikler feedback (som forklaring på, at en forespørgsel systemet ikke forstår det første gang), lærer af det, og så korrigerer systemet.

En fordel Kinesiske forskere har som de forsøger at løse disse problemer er en stor mængde af data. De neurale netværk, der understøtter det sprog, forståelse af nutidens computere kræver store mængder af data til at træne. Jo mere data en virksomhed har, jo klogere sin neurale netværk vil blive, og virksomheder som Baidu og Alibaba har den fordel, at langt de bruger baser. Som ved udgangen af 2016, Baidu hævdede 665 millioner månedlige aktive mobile brugere, og som i Marts i år, Alibaba havde 507 millioner mobile månedlige aktive brugere.

Men Banden Wang, en forsker ved Alibaba ‘ s A. I. Lab, siger forskere bliver nødt til at designe neurale netværk, der ikke har brug for en masse data at blive mere effektiv til at lære sprog. I den virkelige verden, er mennesker, der udtrykker den samme betydning i forskellige måder, og det er umuligt at lære computeren alle mulige udtryk, bemærker han. I sin tidligere rolle som en akademisk forsker, han og hans kolleger kom op med en metode for undervisning computere til at forstå et emne, når meget få data er til rådighed: brug af data fra relaterede emner. For eksempel, for at træne et neuralt netværk til at forstå tekster i idrætsmedicin, du kunne trække på data fra sport og data fra medicin. Den metode er ikke så god som ved hjælp af økologiske data, Wang noter, men når der mangler, det gør det muligt at træne neurale netværk på et emne.

I sidste ende, hvad der vil gøre en stemme assistent lykkes i Kina er dens indhold og tjenester, siger Chenfeng Sang, grundlægger af Ainemo, en start, som gør en stemme-aktiveret hjem assistent robot kaldet Lille Fisk, der gik på salg i juni. Sang planer om gradvist at opbygge uddannelses-og health-care-programmer i hans selskab hjem assistent. Lille Fisk bruger DuerOS samtale platform. Stemme, Sang bemærker, er en måde at levere indhold til folk, som ikke har adgang til Internettet meget godt gennem desktop-computere og smartphones, og især ældre og unge børn.


Date:

by