AI Riktmärke Kommer att be Datorer för att förstå Världen

En ny databas kommer att mäta framsteg inom artificiell intelligens, som datorer försöker att förstå vad som händer i scenerna som visas i fotografier.

Av Kommer Knight den 26 januari 2016

För några år sedan, ett genombrott i maskininlärning plötsligt datorer som har aktiverats för att känna igen objekt som visas i fotografier med hög—nästan kuslig precision. Frågan är nu om maskiner kan göra ett språng, genom att lära sig att göra känsla av vad som faktiskt händer i sådana bilder.

En ny bild-databas, som kallas Visual Genomet, skulle kunna driva datorer mot detta mål, och hjälp för att mäta utvecklingen av datorer som försöker att bättre förstå den verkliga världen. Undervisning datorer att tolka visuella scener är av grundläggande betydelse för artificiell intelligens. Det kan inte bara leka mer användbar vision algoritmer, men också hjälpa till att utbilda hur datorer för att kommunicera mer effektivt, eftersom språket är så intimt knuten till representation i den fysiska världen.

Visuell Genomet har utvecklats av Fei-Fei Li, en professor som är specialiserad inom datorseende och vem som leder Stanford laboratoriet för Artificiell Intelligens, tillsammans med flera kollegor. “Vi fokuserar mycket på några av de svåraste frågorna inom datorseende, vilket är riktigt överbryggande uppfattningen att kognition,” Li säger. “Inte bara ta pixel data i och försöker vettigt av dess färg, fyllning, kan dessa typer av saker, men verkligen förvandla det till en ökad förståelse av de 3-D samt den semantiska visuella världen.”

Li och kollegor som skapats tidigare ImageNet, en databas som innehåller mer än en miljon bilder märkta enligt deras innehåll. Varje år ImageNet i Stor Skala Visuell Igenkänning Utmaning tester möjligheten för datorer att automatiskt känna igen innehållet i bilder.

Under 2012 kommer ett team lett av Geoffrey Hinton vid University of Toronto byggt upp ett stort och kraftfullt neurala nätverk som skulle kunna kategorisera bilder långt mer noggrant än något skapat tidigare. Den teknik som används för att aktivera denna förväg, så kallad djupinlärning, innebär utfodring tusentals eller miljontals exempel i en många-lager neurala nätverk, som gradvis utbildning varje lager av virtuella nervceller för att svara alltmer abstrakta egenskaper från den konsistens av en hunds päls, säga, att dess övergripande formen.

Toronto lagets prestation märkt både en boom av intresse i djupt lärande och en slags renässans i artificiell intelligens i allmänhet. Och djupt lärande har sedan tillämpats på många andra områden, vilket gör att datorer är bättre på andra viktiga uppgifter, såsom bearbetning av ljud och text.

Bilderna i Visual Genomet är märkta mer rikligt i ImageNet, inklusive namn och andra uppgifter av olika objekt som visas i en bild, relationerna mellan dessa objekt, och information om eventuella åtgärder som förekommer. Detta uppnåddes med hjälp av en crowdsourcing metod som utvecklats av en av Li: s kollegor vid Stanford, Michael Bernstein. Planen är att lansera en ImageNet-stil utmaning med hjälp av de uppgifter som i och med 2017.

Algoritmer som utbildats med hjälp av exempel i Visual Genomet kan göra mer än att bara känna igen objekt, och borde ha en viss förmåga att analysera mer komplexa visuella scener.

“Du sitter på ett kontor, men vad är det för layout, som är den person, vad är det han gör, vad som är objekt, vilken händelse det är som händer?” Li säger. “Vi är också överbryggande [denna förståelse] till språket, eftersom det sätt att kommunicera är inte genom att tilldela nummer till pixlar—du behöver ansluta perception och kognition språk.”

Li tror att djupt lärande kommer sannolikt att spela en viktig roll i att aktivera datorer för att analysera mer komplexa scener, men att andra metoder kommer att hjälpa till att avancera state of the art.

Den resulterande AI-algoritmer kan kanske hjälpa till att organisera bilder på nätet eller i personliga samlingar, men de kanske har mer betydande använder, gör att robotar eller självstyrande bilar för att förstå en scen på rätt sätt. De kan möjligen också användas för att lära datorer mer sunt förnuft, genom att uppskatta vilka begrepp som är fysiskt sannolikt eller mer osannolika.

Richard Socher, en machine-learning expert och grundare av en AI startup som heter MetaMind, säger att detta kan vara den mest viktig aspekt av projektet. “En stor del av språket handlar om att beskriva den visuella världen”, säger han. “Den här datan ger en ny skalbart sätt att kombinera de två metoderna och testa nya modeller.”

Visuell Genomet är inte bara komplexa bild-databas som finns för forskare att experimentera med. Microsoft, till exempel, har en databas som kallas Vanliga Objekt i sitt Sammanhang, som visar namn och position av flera objekt i bilder. Google, Facebook och andra driver också på möjligheten av AI-algoritmer för att tolka visuella scener. Forskning publicerad av Google 2014 visade en algoritm som kan ge grundläggande bildtexter till bilder, med varierande grad av noggrannhet (se “Google’ s Brain-Inspirerade Program Beskriver Vad Man Ser i Komplexa Bilder”). Och, mer nyligen, Facebook visade på en fråga-och-svar-system som kan svara på mycket enkla frågor om bilder (se “Facebook-Appen Kan Svara på Grundläggande Frågor Om Vad som finns i Bilder”).

Aude Oliva, en professor vid MIT som studier maskin och mänskliga vision, har utvecklat en databas som kallas Places2, som innehåller mer än 10 miljoner bilder av olika specifika scener. Detta projekt är tänkt att inspirera till utveckling av algoritmer som kan beskriva samma händelse på flera sätt, som människor tenderar att göra. Oliva säger Visuella Genomet och liknande databaser kommer att hjälpa förväg machine vision, men hon menar att AI-forskare kommer att behöva hämta inspiration från biologi om de vill bygga maskiner med verkligen mänskliga-liknande funktioner.

“Människor dra sina beslut och intuition på massor på kunskap, sunt förnuft, sensoriska upplevelser, minnen, och “tankar” som inte nödvändigtvis översättas till språket, tal eller text,” säger Oliva. “Utan att veta hur den mänskliga hjärnan skapar tankar, kommer det att vara svårt att undervisa om sunt förnuft och visuell förståelse för att ett artificiellt system. Neurovetenskap och datavetenskap är två sidor av AI mynt.”