AI Benchmark Vil stille Computere til at skabe Mening i Verden

En ny database vil måle fremskridt i kunstig intelligens, computere forsøger at forstå, hvad der foregår i kulisserne, der er vist i billeder.

For et par år siden, et gennembrud i machine learning pludselig aktiveret computere til at genkende objekter, som er vist i billeder med en hidtil uset—næsten uhyggelig præcision. Spørgsmålet er nu, om maskiner kan gøre endnu et spring, ved at lære at gøre følelse af, hvad der egentlig sker i sådanne billeder.

A new image database, kaldet Visual Genom, kunne skubbe computere mod dette mål, og hjælpe med at måle fremskridt i computere, som forsøger at bedre at forstå den virkelige verden. Undervisning computere til at analysere visuelle scener er fundamentalt vigtigt for kunstig intelligens. Det er måske ikke kun gyde mere nyttige vision algoritmer, men også hjælpe med at uddanne computere hvordan til at kommunikere mere effektivt, fordi sproget er så intimt knyttet til repræsentation af den fysiske verden.

Visuel Genom blev udviklet af Fei-Fei Li, en professor, der har specialiseret sig i computer vision, og som dirigerer Stanford Kunstig Intelligens Lab, sammen med flere kolleger. “Vi fokuserer meget på nogle af de vanskeligste spørgsmål i computer vision, som er virkelig bridging opfattelse af, at kognition,” siger Li. “Ikke bare at tage pixel data og forsøger at giver mening af sin farve, skygge, den slags ting, men virkelig gøre det til en bedre forståelse af de 3-D samt det semantiske visuelle verden.”

Li og kolleger, der tidligere er oprettet ImageNet, en database, der indeholder mere end en million billeder, der er tagget i henhold til deres indhold. Hvert år, den ImageNet Stor Skala Visuel Genkendelse Udfordring test computere til automatisk at genkende indholdet af billeder.

I 2012 et hold ledet af Geoffrey Hinton ved University of Toronto, opbygget en stor og kraftfuld neurale netværk, der kunne kategorisere billeder langt mere præcist end noget andet tidligere har oprettet. Den teknik, der anvendes til at aktivere denne forvejen, kendt som dyb læring, involverer fodring tusinder eller millioner af eksempler i en mange-lags neurale netværk, der efterhånden uddannelse hvert lag af virtuelle neuroner til at reagere på mere abstrakte egenskaber, fra teksturen af en hunds pels, siger, at deres overordnede form.

Toronto holdets præstation markeret både et boom af interesse i dyb læring og en slags renæssance i kunstig intelligens i almindelighed. Og dyb læring har siden været anvendt i mange andre områder, at gøre computere bedre til andre vigtige opgaver, såsom at håndtere lyd og tekst.

Billeder i Visual Genom er mærket mere rigt i ImageNet, herunder navne og detaljer af forskellige objekter, der vises i et billede; forholdet mellem disse objekter; og oplysninger om eventuelle tiltag, der er ved at ske. Dette blev opnået ved hjælp af en crowdsourcing-tilgang, der er udviklet af en af Li ‘ s kolleger på Stanford, Michael Bernstein. Planen er at lancere en ImageNet-stil udfordring, der bruger de data, der ligger i 2017.

Algoritmer uddannet ved hjælp af eksempler i Visual Genom kan gøre mere end blot at genkende objekter, og at vi burde have en vis evne til at analysere mere komplekse visuelle scener.

“Du sidder på et kontor, men hvad er det layout, der er den person, der, hvad er det han gør, hvad der er de objekter omkring, hvad begivenheden er, der sker?” Li siger. “Vi er også ved at bygge bro [denne forståelse] til sproget, fordi den måde at kommunikere på er ikke ved at tildele numre til pixel—du skal oprette forbindelse mellem perception og kognition til sprog.”

Li mener, at dyb læring vil sandsynligvis spille en central rolle i aktivering af computere til at analysere mere komplekse scener, men at andre teknikker vil bidrage til state of the art.

Den resulterende AI algoritmer kunne måske hjælpe med at organisere billeder på nettet eller i private samlinger, men de har måske mere væsentlige anvendelser, så robotter eller selvkørende biler at forstå en scene korrekt. Kunne de tænkes også bruges til at lære computere mere sund fornuft, ved at værdsætte det, som begreber, der er fysisk sandsynligt eller mere usandsynlig.

Richard Socher, en maskine-learning ekspert og grundlægger af en AI-start kaldet MetaMind, siger, at dette kunne være den mest vigtigt aspekt af projektet. “En stor del af sproget er om at beskrive den visuelle verden,” siger han. “Dette datasæt giver en ny skalerbar måde at kombinere de to metoder og afprøve nye modeller.”

Visuel Genom er ikke den eneste komplekse billede database derude for forskere til at eksperimentere med. Microsoft, for eksempel, har en database kaldet Fælles Objekter i en Sammenhæng, som viser de navne og placering af flere objekter i billeder. Google, Facebook, og andre er også presser evne til AI algoritmer til at analysere visuelle scener. Forskning, der er offentliggjort af Google i 2014 viste en algoritme, der kan give grundlæggende billedtekster til billederne, med varierende niveauer af nøjagtighed (se “Google’ s Hjerne-Inspireret Software, der Beskriver, Hvad Den Ser i Komplekse Billeder”). Og, mere nyligt, Facebook viste et spørgsmål-og-svar-system, som kan svare på meget enkle spørgsmål om billeder (se “Facebook App Kan Besvare Grundlæggende Spørgsmål Om, Hvad der er i Billeder”).

Aude Oliva, en professor på MIT, der studerer maskine og menneske syn, har udviklet en database, kaldet Places2, som indeholder mere end 10 millioner billeder af forskellige specifikke scener. Projektet er beregnet til at inspirere til udvikling af algoritmer, som kan beskrive den samme scene, der på flere måder, som mennesker har tendens til at gøre. Oliva siger Visuelle Genom og lignende databaser vil hjælpe forhånd machine vision, men hun mener, at AI-forskere bliver nødt til at trække på inspiration fra biologi, hvis de ønsker at opbygge maskiner med et virkeligt menneske-lignende egenskaber.

“Mennesker henlede deres beslutning og intuition på masser af viden, sund fornuft, sensoriske oplevelser, minder og “tanker”, der ikke nødvendigvis er oversat til sprog -, tale -, eller tekst,” Oliva siger. “Uden at vide, hvordan den menneskelige hjerne skaber tanker, vil det være vanskeligt at undervise i sund fornuft og visuel forståelse for at et kunstigt system. Neurovidenskab og computer videnskab er to sider af AI mønt.”


Date:

by