Autodidact AI-Masters Rubik ‘ s Cube in Slechts 44 Uur

Afbeelding: AP

Aan DeepCube, een kunstmatig intelligent systeem dat net zo goed in het spelen van de Rubik ‘ s Cube als de beste van de menselijke master solvers. Ongelooflijk, het systeem geleerd om te domineren de klassieke 3D-puzzel in slechts 44 uur en zonder enige menselijke tussenkomst.

“Een over het algemeen intelligent agent moet in staat zijn om te leren zelf problemen op te lossen in complexe domeinen met minimale menselijke controle,” schrijven de auteurs van het nieuwe papier, online gepubliceerd op het arXiv preprint server. Inderdaad, als we ooit naar het bereiken van een algemene, de mens als machine-intelligentie, moeten we het ontwikkelen van systemen die kunnen leren en vervolgens toe te passen die lessen om real-world applicaties.

En we komen er wel. Recente doorbraken in de machine learning hebben geproduceerd systemen die, zonder kennis, hebben geleerd om meester spelen, zoals schaken en Go. Maar deze aanpak nog niet vertaald naar de Rubik ‘ s Kubus. Het probleem is dat de versterking van het leren—de strategie gebruikt om te leren machines te spelen schaak en Go—leent zich niet goed om met de complexe 3D-puzzels. In tegenstelling tot schaken en Go—spelletjes waarin het relatief eenvoudig voor een systeem om te bepalen of een verhuizing was “goed” of “slecht”, het is niet meteen duidelijk om een AI dat is het oplossen van de Rubik ‘ s Cube als een bepaalde beweging heeft een verbetering van de algehele staat van de puzzel door elkaar gegooid. Wanneer een kunstmatig intelligent systeem niet kan zien als een positieve stap in de richting van het bereiken van een algemene doelstelling, het kan niet worden beloond, en als het niet kan worden beloond, reinforcement learning werkt niet.

Op het oppervlak, de Rubik ‘ s Kubus lijkt misschien eenvoudig, maar het biedt een groot aantal mogelijkheden. Een 3x3x3 kubus is voorzien van een totale “state space” van 43,252,003,274,489,856,000 combinaties (dat is 43 triljoen), maar slechts een state space zaken—dat magische moment wanneer alle zes zijden van de kubus dezelfde kleur. Veel verschillende strategieën, of algoritmen bestaan voor het oplossen van de kubus. Het kostte haar uitvinder, Erno Rubik, een hele maand te bedenken, de eerste van deze algoritmen. Een paar jaar geleden, het was te zien dat zo weinig mogelijk beurten om het oplossen van de Rubik ‘ s Kubus vanuit een willekeurige scramble is 26.

We hebben uiteraard verworven veel van de informatie over de Rubik ‘ s Kubus en hoe het op te lossen omdat het zeer verslavend puzzel verscheen voor het eerst in 1974, maar de echte truc in kunstmatige intelligentie onderzoek is om machines om problemen op te lossen zonder het voordeel van deze historische kennis. Reinforcement learning kan helpen, maar zoals gezegd, is deze strategie niet werkt zeer goed voor de Rubik ‘ s Kubus. Om deze beperking te ondervangen, een onderzoeksteam van de Universiteit van Californië, Irvine, ontwikkelde een nieuwe AI-techniek die bekend staat als Autodidactisch Iteratie.

“Om het oplossen van de Rubik’ s Kubus op met behulp van reinforcement learning, het algoritme leert een beleid,” schrijven de onderzoekers in hun studie. “Het beleid bepaalt welke verplaatsen om in een bepaalde staat.”

Voor het formuleren van dit “beleid” DeepCube creëert zijn eigen innerlijke systeem van beloningen. Zonder hulp van buiten, en met de enige ingang wijzigingen in de kubus zelf, het systeem leert om te evalueren de kracht van de bewegingen. Maar het heeft dus in een vrij ingenieuze, hoewel arbeidsintensief, manier. Wanneer de AI roept een beweging, sprongen eigenlijk helemaal naar voren om de voltooid kubus en werkt zijn weg terug naar de voorgestelde verplaatsen. Dit stelt het systeem in staat tot het evalueren van de algehele kracht en de vaardigheid van de verhuizing. Als het eenmaal heeft verworven een voldoende hoeveelheid van de gegevens met betrekking tot de huidige positie, het maakt gebruik van een traditionele boom search methode, waarin zij onderzoekt elke mogelijke zet te bepalen welke de beste is voor het oplossen van de kubus. Het is niet de meest elegante systeem in de wereld, maar het werkt.

De onderzoekers, geleid door Stephen McAleer, Bos Agostinelli, en Alexander Shmakov, opgeleid DeepCube met behulp van twee miljoen verschillende iteraties in acht miljard blokjes (waaronder enkele herhalingen), en het opgeleid voor een periode van 44 uur over een machine die gebruikt een 32-core Intel Xeon E5-2620 server met drie NVIDIA Titan XP Gpu ‘ s.

Het systeem ontdekt “een opmerkelijke hoeveelheid Rubik’ s Kubus kennis tijdens de opleiding proces”, schrijven de onderzoekers, met inbegrip van een strategie die wordt gebruikt door geavanceerde speedcubers, namelijk een techniek waarbij de hoek en rand cubelets zijn op elkaar afgestemd, samen voordat ze worden geplaatst in de juiste locatie. “Ons algoritme is in staat om op te lossen in 100 procent van willekeurig roerei blokjes terwijl het bereiken van een mediaan lossen lengte van 30 moves —minder dan of gelijk aan solvers die gebruik maken van de menselijke domein kennis,” schrijven de auteurs. Er is ruimte voor verbetering, zoals DeepCube ervaren problemen met een klein deel van de kubussen die resulteerde in een aantal oplossingen duurt langer dan verwacht.

Vooruitblikkend, de onderzoekers willen voor het testen van de nieuwe Autodidactisch Iteratie techniek op harder, 16-zijdig blokjes. Meer praktisch, kan dit onderzoek worden gebruikt voor het oplossen van echte problemen, zoals het voorspellen van de 3D-vorm van eiwitten. Zoals de Rubik ‘ s Cube, eiwitten vouwen is een combinatorische optimalisatie probleem. Maar in plaats van het uitzoeken van de volgende locatie voor het verplaatsen van een cubelet, het systeem kon achterhalen van de juiste volgorde van aminozuren die samen een 3D-rooster.

Het oplossen van puzzels is allemaal prima en goed, maar het uiteindelijke doel is om AI pakken een aantal van de meest urgente problemen, zoals drug discovery, DNA-analyse, en het bouwen van robots die kunnen functioneren in een menselijke wereld.

[arXiv via MIT Technology Reivew]