En ny database vil måle fremgang i kunstig intelligens, som datamaskiner prøve å forstå hva som skjer i kulissene vist i bilder.
For noen år siden, et gjennombrudd i maskinlæring plutselig aktiverte datamaskiner til å gjenkjenne objekter som vises i bilder med enestående—nesten skummelt—nøyaktighet. Spørsmålet nå er om maskiner kan gjøre en annen leap, ved å lære å forstå hva som faktisk skjer i slike bilder.
Et nytt bilde database som kalles Visuell Genom, kunne presse datamaskiner mot dette målet, og bidra til å måle utviklingen av datamaskiner forsøk på å bedre forstå den virkelige verden. Undervisning datamaskiner til å analysere visuelle scener er fundamentalt viktig for kunstig intelligens. Det er kanskje ikke bare gyte mer nyttig visjon algoritmer, men også hjelpe til å lære hvordan datamaskiner til å kommunisere mer effektivt, fordi språket er så nært knyttet til representasjon av den fysiske verden.
Visuell Genom ble utviklet av Fei-Fei Li, en professor som spesialiserer seg på computer vision og hvem som leder Stanford Artificial Intelligence Lab, sammen med flere kolleger. “Vi fokuserer veldig mye på noen av de vanskeligste spørsmålene i computer vision, som er virkelig å bygge bro mellom oppfatningen til erkjennelse,” sier Li. “Ikke bare tar pixel data i og prøver å fornuftig av sin farge, skyggelegging, disse slags ting, men virkelig slå den inn i en dypere forståelse av 3-D, så vel som den semantiske visuelle verden.”
Li og kolleger som er opprettet tidligere ImageNet, en database som inneholder mer enn en million bilder som er merket i henhold til deres innhold. Hvert år, den ImageNet Stor Skala Visuell Anerkjennelse Utfordring tester evnen til datamaskiner for å automatisk gjenkjenne innholdet i bilder.
I 2012, et team ledet av Geoffrey Hinton ved Universitetet i Toronto bygget en stor og kraftig nevrale nettverk som kan kategorisere bildene langt mer nøyaktig enn noe som er opprettet tidligere. Teknikken brukes til å aktivere denne forhånd, kjent som dyp læring, innebærer fôring tusenvis eller millioner av eksempler inn i en mange-flerlags nevrale nettverk, gradvis trening hver laget av virtuelle neurons å svare på stadig mer abstrakte egenskaper, fra teksturen av en hundens pels, si, til sin generelle form.
Toronto-lagets prestasjon merket både en boom av interesse i dyp læring og en slags renessanse i kunstig intelligens mer generelt. Og dybdekunnskap har siden blitt brukt i mange andre områder, noe som gjør datamaskiner bedre på andre viktige oppgaver, slik som behandling av lyd og tekst.
Bildene i Visual Genom er merket mer rikt i ImageNet, inkludert navn og detaljer av ulike objekter som vises i et bilde, relasjoner mellom disse objektene, og informasjon om eventuelle tiltak som er oppstått. Dette ble oppnådd ved hjelp av en motsatt tilnærming som er utviklet av en av Li ‘ s kolleger ved Stanford, Michael Bernstein. Planen er å lansere en ImageNet-stil utfordring ved hjelp av data ligger i 2017.
Algoritmer utdannet ved hjelp av eksempler i Visual Genom kan gjøre mer enn bare å gjenkjenne objekter, og burde ha noen mulighet til å analysere mer komplekse visuelle scener.
“Du sitter på et kontor, men hva er layout, som er den personen, hva gjør han, hva er objekter rundt, hva tilfelle er det som skjer?” Li sier. “Vi er også å bygge bro [denne forståelsen] til språk, fordi den måten å kommunisere på er ikke ved å tilordne telefonnumre til punkter—du trenger for å koble persepsjon og kognisjon til språk.”
Li mener at dyp læring vil trolig spille en viktig rolle i å aktivere datamaskiner for å analysere mer komplekse scener, men som andre teknikker som vil bidra til å fremme state of the art.
Den resulterende AI algoritmer kan kanskje bidra til å organisere bilder på nettet eller i personlige samlinger, men de har kanskje mer betydningsfulle bruker, slik at roboter eller selvkjørende biler å forstå en scene på riktig måte. De kunne tenkes også brukes til å undervise datamaskiner mer vanlig forstand, ved å verdsette konsepter som er fysisk sannsynlig eller mer troverdige.
Richard Socher, en maskin-læring ekspert og grunnleggeren av en AI oppstart kalt MetaMind, sier dette kan være den mest viktig aspekt ved prosjektet. “En stor del av språket er om å beskrive den visuelle verden,” sier han. “Dette datasettet gir en ny skalerbar måte å kombinere de to modalitetene og prøve ut nye modeller.”
Visuell Genom, er det ikke bare komplisert bilde database der ute for forskere å eksperimentere med. Microsoft, for eksempel, har en database kalt Vanlige Objekter i Sammenheng, noe som viser navnene og plasseringen av flere objekter i bilder. Google, Facebook, og andre er også presser evne til AI algoritmer for å analysere visuelle scener. Forskning publisert av Google i 2014 viste en algoritme som kan gi grunnleggende bildetekster for bilder, med varierende grad av nøyaktighet (se “Google-Hjerne-Inspirert Programvare Beskriver Hva Det Ser i Komplekse Bilder”). Og, mer nylig, Facebook viste en spørsmål-og-svar-system som kan besvare svært enkle spørsmål om bilder (se “Facebook-Appen Kan Svare på Grunnleggende Spørsmål Om Hva som er i Bilder”).
Aude Oliva, en professor ved MIT som studerer maskin og menneske syn, har utviklet en database kalt Places2, som inneholder mer enn 10 millioner bilder av ulike spesifikke scener. Dette prosjektet er ment å inspirere til utvikling av algoritmer i stand til å beskrive de samme scene på flere måter, som mennesker har en tendens til å gjøre. Oliva sier Visuelle Genom og lignende databaser vil bidra til å fremme maskin visjon, men hun mener at AI forskere vil behovet for å trekke inspirasjon fra biologien hvis de ønsker å bygge maskiner med virkelig menneske-lignende evner.
“Mennesker trekke sine vedtak og intuisjon på massevis av kunnskap, sunn fornuft, sensoriske opplevelser, minner, og “tanker” som ikke nødvendigvis er oversatt til språk -, tale eller tekst,” Oliva sier. “Uten å vite hvordan den menneskelige hjernen skaper tanker, vil det være vanskelig å lære sunn fornuft og visuell forståelse til et kunstig system. Nevrovitenskap og informatikk er to sider av AI mynt.”