Et massivt nyt videosæt vil hjælpe med at uddanne smarte assistenter og robotter-men der er åbenlyse bekymringer for, hvordan teknologien vil blive brugt.
af
14. oktober 2021
Vi tager det for givet, at maskiner kan genkende, hvad de ser på fotos og videoer. Denne evne hviler på store datasæt som ImageNet, en håndkureret samling af millioner af fotos, der blev brugt til at træne de fleste af de bedste billedgenkendelsesmodeller i det sidste årti.
Men billederne i disse datasæt skildrer en verden af kuraterede objekter – et billedgalleri, der ikke fanger hverdagens rod, som mennesker oplever det. At få maskiner til at se tingene, som vi gør, vil tage en helt ny tilgang. Og Facebooks AI -laboratorium vil gå forrest.
Det er et kick-start et projekt, kaldet Ego4D, for at bygge AI'er, der kan forstå scener og aktiviteter set fra et førstepersonsperspektiv-hvordan tingene ser ud til de involverede mennesker, snarere end til en tilskuer. Tænk GoPro-optagelser, der er sløret for bevægelser, der er taget i handlingens tykke, i stedet for velindrammede scener taget af nogen på sidelinjen. Facebook vil have Ego4D til at gøre for førstepersonsvideo, hvad ImageNet gjorde for fotos.
Relateret historie
Hvorfor Facebook bruger Ray-Ban til at gøre krav på vores ansigter
For at bygge metaversen har Facebook brug for, at vi vænner os til smarte briller.
I de sidste to år har Facebook AI Research (FAIR) arbejdet med 13 universiteter rundt om i verden for at samle det største datasæt af førstepersonsvideo-specifikt for at træne dybdegående billedgenkendelsesmodeller. AI'er, der er uddannet i datasættet, vil være bedre til at kontrollere robotter, der interagerer med mennesker eller fortolke billeder fra smarte briller. “Maskiner vil kun kunne hjælpe os i vores daglige liv, hvis de virkelig forstår verden gennem vores øjne,” siger Kristen Grauman hos FAIR, der leder projektet.
Sådan teknologi kan støtte mennesker, der har brug for hjælp i hjemmet, eller guide folk i opgaver, de lærer at udføre. “Videoen i dette datasæt er meget tættere på, hvordan mennesker observerer verden,” siger Michael Ryoo, en computer visionforsker ved Google Brain og Stony Brook University i New York, som ikke er involveret i Ego4D.
Men de potentielle misbrug er klare og bekymrende. Undersøgelsen er finansieret af Facebook, en gigant på de sociale medier, der for nylig er blevet beskyldt i det amerikanske senat for at have lagt overskud over folks trivsel-som bekræftet af MIT Technology Review's egne undersøgelser.
Facebooks forretningsmodel , og andre Big Tech -virksomheder, er at vride så mange data som muligt fra folks online adfærd og sælge dem til annoncører. AI'en, der er skitseret i projektet, kan strække denne rækkevidde til folks dagligdagse offline adfærd og afsløre, hvilke objekter der er i dit hjem, hvilke aktiviteter du nød, hvem du tilbragte tid med, og selv hvor dit blik hængte – en hidtil uset grad af personlige oplysninger. < /p>
“Der er arbejde med privatlivets fred, der skal udføres, når du tager dette ud af verden af sonderende forskning og ind i noget, der er et produkt,” siger Grauman. “Det arbejde kan endda være inspireret af dette projekt.”
FACEBOOK Det største tidligere datasæt af førstepersonsvideo består af 100 timers optagelser af mennesker i køkkenet. Ego4D -datasættet består af 3.025 timers video optaget af 855 mennesker på 73 forskellige steder i ni lande (USA, Storbritannien, Indien, Japan, Italien, Singapore, Saudi -Arabien, Colombia og Rwanda).
Deltagerne havde forskellige aldre og baggrunde; nogle blev rekrutteret til deres visuelt interessante erhverv, såsom bagere, mekanikere, tømrere og anlægsgartnere.
Tidligere datasæt bestod typisk af semi-scriptede videoklip, der kun var få sekunder lange. For Ego4D havde deltagerne hovedmonterede kameraer i op til 10 timer ad gangen og optog førstepersonsvideo af uskrevne daglige aktiviteter, herunder at gå langs en gade, læse, vaske tøj, shoppe, lege med kæledyr, spille brætspil og interagere med andre mennesker. Nogle af optagelserne indeholder også lyd, data om hvor deltagernes blik var fokuseret og flere perspektiver på den samme scene. Det er det første datasæt af sin slags, siger Ryoo.
