En Algoritme, der Opsummerer Lange Tekst Overraskende Godt – MIT Technology Review

Hvem har tid til at læse hver artikel, de kan se, der er delt på Twitter eller Facebook, eller ethvert dokument, der er relevante for deres job? Som information overload bliver endnu værre, computere, kan blive vores eneste håb for at håndtere en voksende strøm af dokumenter. Og det kan blive en rutine til at stole på en maskine til at analysere og omskrive artikler, videnskabelige artikler og anden tekst for dig.

En algoritme, der er udviklet af forskere på Salesforce viser, hvordan computere, der i sidste ende kan tage på job med sammenfatter dokumenter. Det bruger flere machine-learning tricks til at producere overraskende sammenhængende og korrekt uddrag af tekst fra længere stykker. Og mens det endnu ikke er så god som en person, der sladrer om, hvordan kondenserende tekst kunne ende med at blive automatiseret.

Den algoritme, som, for eksempel, er det følgende resumé af en nylig artikel i New York Times om Facebook forsøger at bekæmpe fake news forud for UK ‘ s kommende valg:

  • Sociale netværk udgivet en serie af reklamer i aviser i England på mandag.
  • Det har fjernet titusindvis af falske konti i Storbritannien.
  • Det sagde også at det ville leje på 3.000 flere moderatorer, næsten en fordobling af antallet af mennesker i verden, der scanner for upassende eller stødende indhold.

Salesforce-algoritme er dramatisk bedre end noget som tidligere er udviklet i henhold til en fælles software værktøj til at måle nøjagtigheden af tekst resuméer.

“Jeg tror ikke, jeg nogensinde har set en så stor forbedring i alle [natural-language-behandling] opgave,” siger Richard Socher, chief scientist på Salesforce. Socher er et fremtrædende navn i machine learning og naturligt sprog forarbejdning, og hans start, MetaMind, blev erhvervet af Salesforce i 2016.

Den software, der er stadig en lang vej fra at matche et menneskes evne til at fange essensen af, dokument, tekst, og andre oversigter, den producerer er sloppier og mindre sammenhængende. Ja, opsummerer teksten perfekt ville kræve ægte intelligens, herunder commonsense viden og beherskelse af sprog.

Parsing sprog er fortsat en af de store udfordringer for kunstig intelligens (se “AI’ s Sprog-Problem”). Men det er en udfordring med det enorme kommercielle potentiale. Selv en begrænset sproglig intelligens—evnen til at analysere talt og skrevet forespørgsler, og for at reagere på mere sofistikerede og sammenhængende måde—kunne omdanne personal computing. I de mange specialiserede områder som medicin, videnskabelig forskning, og lov—kondenserende oplysninger og udvinding af indsigt kunne have enorme kommercielle fordele.

Caiming Xiong, en forsker på Salesforce, der har bidraget til arbejdet, siger hans team ‘ s algoritme, mens ufuldkommen, kunne opsummere daglige nyheder, artikler, eller give en synopsis af kundens e-mails. Sidstnævnte kan især være nyttigt for Salesforce ‘ s egen platform.

Holdet ‘ s algoritme bruger en kombination af metoder til at opnå denne forbedring. Systemet lærer af eksempler på gode oversigter, en metode kaldet overvåget indlæring, men også anvender en form for kunstig opmærksom på den tekst, der er at fortære og udlæser. Dette hjælper med at sikre, at den ikke producerer for mange gentagne dele af teksten, et fælles problem med sammendrag algoritmer.

Systemet eksperimenter med henblik på at generere resuméer af sine egne ved hjælp af en proces, der kaldes forstærkning læring. Inspireret af den måde, dyrene ser ud til at lære, det indebærer at give positiv feedback for handlinger, der fører mod et bestemt mål. Styrkelse læring er blevet brugt til at træne computere til at gøre imponerende nye ting, som at spille komplekse spil eller kontrol af robotter (se “10 Banebrydende Teknologier 2017: Reinforcement Learning”). Dem, der arbejder på samtale grænseflader er nu i stigende grad kigger på styrkelse læring som en måde at forbedre deres systemer.

Kristian Hammond, professor ved Northwestern University og grundlægger af Narrative Science, en virksomhed, der producerer nyheder rapporter fra rå data, siger Salesforce-forskning er en god forhånd, men det viser også grænser for at stole udelukkende på statistiske machine learning. “På et tidspunkt, er vi nødt til at indrømme, at vi har brug for en lille smule af semantik og en lille smule af syntaktisk viden i disse systemer, for at de kan være flydende, og flydende,” siger Hammond.

Hammond siger, at brugen af en opmærksomhed mekanisme, der efterligner, på et meget simpelt niveau, den måde, en person, der er opmærksom på, hvad han lige har sagt. “Når du siger noget, for oplysninger om, hvordan du siger, at det er drevet af den kontekst, hvad du har sagt før,” siger han. “Dette arbejde er et skridt i den retning.”

Ville du stole på en maskine for at opsummere vigtige dokumenter til dig?

Fortæl os hvorfor.

At forbedre sproglige færdigheder af computere kan også vise sig at være vigtigt i bestræbelserne på at fremme kunstig intelligens. En start, der kaldes Maluuba, som blev erhvervet tidligere i år af Microsoft, som for nyligt udarbejdet et system, der kan generere relevante spørgsmål fra teksten. Den Maluuba holdet brugte også en kombination af overvåget indlæring og styrkelse læring.

Adam Trischler, senior research scientist ved Maluuba, siger stille relevante spørgsmål er en vigtig del af læringen, så det er vigtigt at skabe nysgerrige maskiner. “Det ultimative mål er at bruge spørgsmål-og-besvarelse i en dialog,” Trischler siger. “Hvad nu, hvis en maskine kan gå ud og indsamle oplysninger, og derefter stille sine egne spørgsmål?”


Date:

by