Dette Online AI Verktøyet Tar Ditt Ord og gjør Dem Til Mareritt

Bilde: Hudson Hongo/T2i

Vi har sett masse på machine learning systems opprett ny og merkelig uttrykk og dr & oslash; mmeaktig bilder etter å ha blitt trent på store mengder data. Men en ny nettside lar deg gjøre genererer, og resultatene er like merkelig som du forventer:

Bilde: Hudson Hongo/T2i

Web-applet, bygget av forsker Cristóbal Valenzuela, er basert på en ny artikkel fra et annet team av forskere. Maskinen deres læring algoritmen kalles AttnGAN, (Attentional Generativ Alternative Nettverk). Det er ment å forbedre andre tekst-til-image AI ved å avgrense bilder i word-nivå. For nå, resultatene er nærmere surrealistisk kunst:

Bilde: Hudson Hongo/T2i

Maskinlæring, som du sikkert vet nå, er prosessen som forskerne bruker til å trene algoritmer på store datasett, som tillater dem å løse komplekse problemer som “hva er dette et bilde av?” på sine egne. Disse algoritmene kan også gjøre det motsatte, å skape nye bilder ut av ord. Det nye papiret, og forklarer at eldre tekst-til-image programmer dannet bilder ved å bruke hele setninger, som ikke var gode. Deres metode i stedet skaper et generelt bilde fra hele setningen, deretter forfiner bildet ved hjelp av den setningen er sub-deler.

Forskerne trente nettverk på COCO, eller Vanlige Objekter i Sammenheng dataset. Det er en god referanse kilde for bilder av vanlige gjenstander, som stopp skilt, dyr, og… Beskjedne Musen tekster.

Bilde: Ryan Mandelbaum/T2i
Bilde: Hudson Hongo/T2i

Bilde: Ryan Mandelbaum/T2i

Valenzuela er verktøyet utmerket seg ved å lage ting av feber drømmer i respons til Gizmodo medarbeidere’ vridd forespørsler. Vår egen Hudson Hongo fikk spesielt god på å få bildene han ville ha.

Bilde: Kelly Bouret/T2i

Bilde: Hudson Hongo/T2i
Bilde: Hudson Hongo/T2i

Ikke overraskende, Janelle Shane ‘ s AI Weirdness blogg er der vi fant ut om AttnGAN, så vi spurte henne hva det sier om den nåværende tilstand av AI.

“Denne demoen er en veldig interessant måte å vise hvor mye en state of the art image anerkjennelse algoritme forstår om bilde og tekst,” sa hun til Gizmodo. “Hva betyr det å forstå om hva ‘hund’ betyr? Eller ‘menneske?’” Men hun la merke til at strukturen er vanskelig for disse algoritmene. “Hvis det ser en menneskelig arm peker mot det vs til side, det ser virkelig annerledes i et 2D-bilde.”

Shane også påpekt at algoritmen trakk fugler veldig bra når det kun nødvendig å tegne fugler, men ting ble verre da flere ble forventet av det—versjon av AttnGAN på Valenzuela sted, prøver å dra uansett hva en bruker skriver inn. Hun sammenlignet det å selvkjørende biler, som har mange flere oppgaver som de må gjøre, og hindringer de må erkjenne.

Gizmodo nådd ut til studiet er første forfatteren, Ph. D student Tao Xu i Lehigh University, og vil oppdatere innlegget når vi hører tilbake.

Men vær så snill, ha det gøy med dette, og vis oss din verste i kommentarfeltet.

Bilde: Jennings Brun/T2i
Bilde: Marina Galperina/T2i

Som en siste tanke, disse ville gjøre virkelig gode Dixit kort.

[arxiv/T2i via AI Weirdness]

Oppdatering 4:00 pm OG: studien er forfatter Tao Xu, graduate student ved Lehigh University, svarte til Gizmodo forespørsel til e-post. Hun forklarte at det var en betydelig forbedring i forhold til de beste tidligere rapportert resultat:

I dag, med den nylige fremskritt i dyp læring, computer vision-systemer er så effektive, for eksempel, de kan diagnostisere sykdommer i medisinske bilder, identifisere mennesker og biler for selvstendig kjøring. Men vi har likevel ikke konkludere med at disse systemene virkelig å forstå den visuelle verden. Fordi hvis de maskiner som har en slik “intelligens”, de burde ikke gjenkjenner bare bilder, men også være i stand til å generere dem.

Våre AttnGAN inkorporerer Oppmerksomhet mekanisme med Generativ Alternative Nettverk (GANs), som i betydelig grad øker tekst-til-image generasjon ytelse. Oppmerksomhet er et menneskelig konsept, vår AttnGAN lærer slike “intelligens” og er i stand til å tegne som mennesker, dvs., gjentatte ganger refererer til tekst beskrivelse og betale mer oppmerksomhet til relevante ord mens du tegner et bestemt område av bilde.

Selv om AttnGAN i stor grad utkonkurrerer state of the art for tekst-til-image-syntese, generere realistiske bilder med objekter fra flere kategorier er fortsatt et åpent problem i samfunnet. Og vi ønsker å undersøke mer om dette retning i fremtiden.


Date:

by