Deze Online AI Gereedschap Brengt Je Woorden en Zet Ze om In Nachtmerries

Afbeelding: Hudson Hongo/T2i

We hebben gezien dat veel van machine-learning systemen, het maken van nieuwe vreemde zinnen en droomachtige beelden na te zijn opgeleid op grote hoeveelheden gegevens. Maar een nieuwe website kunt u het genereren, en de resultaten zijn net zo bizar als je zou verwachten:

De web applet, gebouwd door de onderzoeker Cristóbal Valenzuela, is gebaseerd op een nieuw papier van een ander team van onderzoekers. Hun machine learning algoritme heet AttnGAN, (Attentional Generatieve Tegenspraak Netwerk). Het is bedoeld om de verbetering van andere tekst-naar-image AI door raffinage van beelden bij het woord niveau. Voor nu, de resultaten dichter bij de surrealistische kunst:

Machine learning, zoals u waarschijnlijk weet, is het proces onderzoekers gebruiken om te trainen algoritmen op grote datasets, waardoor ze bij het oplossen van complexe problemen zoals “wat is dit een foto van?” op hun eigen. Deze algoritmes kunnen ook het tegenovergestelde doen, het creëren van nieuwe beelden uit woorden. Het nieuwe papier legt uit dat oudere tekst-naar-image programma ‘ s gevormd beelden met behulp van een hele zin, die was ook niet echt geweldig. Hun methode in plaats daarvan maakt u een algemeen beeld van de hele zin, dan verfijnt het beeld met behulp van de zin van de sub-onderdelen.

De onderzoekers getraind in het netwerk op de COCO, of Gemeenschappelijke Objecten in Context dataset. Het is een goede referentie voor beelden van gemeenschappelijke objecten, zoals verkeersborden, dieren en… Modest Mouse teksten.

Valenzuela hulpmiddel blonk uit in het maken van de spullen van de koorts dromen in reactie op Gizmodo stafleden’ twisted aanvragen. Onze eigen Hudson Hongo kreeg vooral goed in het krijgen van de beelden die hij wilde.

Niet verwonderlijk, Janelle van Shane AI Rare blog is waar we over AttnGAN, dus vroegen we haar wat het zegt over de huidige stand van de AI.

“Deze demo is een interessante manier van het tonen van hoeveel een state of the art beeld erkenning algoritme begrijpt over beeld en tekst,” vertelde ze aan Gizmodo. “Wat doet het juist over wat ‘hond’ betekent? Of ‘een mens?’” Maar ze merkte dat structuur is het moeilijk voor deze algoritmes. “Als er sprake is van een menselijke arm te wijzen in de richting van het vs aan de kant, het ziet er echt anders in een 2D-afbeelding.”

Shane heeft er ook op gewezen dat het algoritme trok vogels echt goed als het enige dat nodig is om te tekenen van vogels, maar de dingen nog slechter naarmate er meer werd verwacht—de versie van AttnGAN op Valenzuela de site probeert te trekken van wat een gebruiker in. Ze vergeleken het met zelf-rijdende auto ‘ s, die hebben veel meer taken die ze moeten doen en belemmeringen die zij moeten herkennen.

Gizmodo bereikt uit de studie van de eerste auteur, Ph. D student Tao Xu aan de Lehigh University, en zal het bijwerken van de post, wanneer horen we weer terug.

Maar alsjeblieft, veel plezier met deze en toon ons uw slechtste in de comments.

Als een laatste gedachte, deze zou echt goed Dixit kaarten.

[arxiv/T2i via AI Gekte]

Update 4:00PM ET: De studie van de auteur Tao Xu, graduate student aan de Lehigh University, reageerde Gizmodo op het verzoek van de e-mail. Ze legde uit dat het een belangrijke verbetering ten opzichte van de beste voorafgaande gerapporteerde resultaat:

Tegenwoordig, met de recente ontwikkelingen in de diepe leren, het computer vision systemen zijn zo krachtig, zo kunnen ze het diagnosticeren van ziekten van medische beelden, het identificeren van mensen en auto ‘ s voor autonoom rijden. Er is echter nog niet concluderen dat deze systemen voor het werkelijk begrijpen van de visuele wereld. Want als de machines hebben zoals “intelligentie” ze moeten niet alleen het herkennen van beelden, maar ook in staat zijn om ze te genereren.

Onze AttnGAN bevat de Aandacht mechanisme met Generatieve Tegenspraak Netwerken (GANs), die aanzienlijk verhoogt de tekst-naar-image-generatie prestaties. Als de aandacht is een menselijk begrip, ons AttnGAN leert deze “intelligentie” en is in staat om te tekenen als de mens, d.w.z. herhaaldelijk verwijzen naar de tekst beschrijving en meer aandacht te besteden aan relevante woorden tijdens het tekenen in een bepaalde regio van het beeld.

Hoewel AttnGAN aanzienlijk beter presteert dan de stand van de techniek voor tekst-naar-image synthese, het genereren van realistische beelden met objecten uit meerdere categorieën is nog steeds een open probleem in de gemeenschap. En we willen onderzoeken meer op deze richting in de toekomst.