Autodidakt-KI Meister Rubik ‘ s Cube in Nur 44 Stunden

Bild: AP

Treffen DeepCube, ein künstlich intelligentes system, die so gut spielen, Rubik ‘ s Cube als die besten menschlichen master-Löser. Unglaublich, das system gelernt, das beherrschen der klassischen 3D-puzzle in nur 44 Stunden und ohne menschlichen Eingriff.

“Ein allgemein intelligenter agent muss in der Lage sein zu lehren, wie zu lösen, Probleme in komplexen Domänen mit einem Minimum an menschlicher Aufsicht”, schreiben die Autoren der neuen Studie, online veröffentlicht am arXiv preprint-server. In der Tat, wenn wir jemals zu erreichen, eine Allgemeine, menschliche wie maschinelle Intelligenz, wir müssen Systeme entwickeln, die lernen können, und dann wenden diese Erkenntnisse auf real-world-Anwendungen.

Und wir sind es immer. Die jüngsten Durchbrüche in der Maschine learning Systeme hergestellt, die, ohne Vorkenntnisse, haben gelernt, Meister Spiele wie Schach und Go. Aber diese Ansätze noch nicht übersetzt sehr gut auf der Rubik ‘ s Cube. Das problem ist, dass reinforcement learning—Strategie verwendet, um zu lehren Maschinen zu spielen Schach-und Go—eignet sich nicht gut, um komplexe 3D-puzzles. Im Gegensatz zu Schach-und Go—Spiele, in denen es relativ leicht, ein system, um zu bestimmen, ob ein Umzug “gut” oder “schlecht”—es ist nicht sofort klar, einer KI, die versucht, lösen den Rubik ‘ s Cube, wenn eine bestimmte Bewegung verbessert die Allgemeine Zustand der wirre puzzle. Wenn ein künstlich intelligentes system kann nicht sagen, ob ein Umzug ist ein positiver Schritt in Richtung der Erfüllung einer Gesamt-Ziel, es kann nicht belohnt werden, und wenn es nicht belohnt werden, reinforcement learning funktioniert nicht.

Auf der Oberfläche, die Rubik ‘ s Cube kann einfach erscheinen, aber es bietet eine überwältigende Zahl von Möglichkeiten. Einen 3x3x3 cube verfügt über “state space” von 43,252,003,274,489,856,000 Kombinationen (43 Trillionen), aber nur ein state-space matters—dieser Magische moment, wenn alle sechs Seiten des Würfels die gleiche Farbe haben. Viele verschiedene Strategien oder algorithmen, existieren für die Lösung der cube. Es hat seinen Erfinder Erno Rubik, einen ganzen Monat zu entwickeln, die erste dieser algorithmen. Vor ein paar Jahren, es wurde gezeigt, dass die geringste Anzahl von Zügen zu lösen den Rubik ‘ s Cube aus jeder random scramble 26.

Wir haben offensichtlich erwarb eine Vielzahl von Informationen über den Rubik ‘ s Cube und wie es zu lösen, da der sehr süchtig machenden puzzle-erschien erstmals im Jahr 1974, aber der eigentliche trick in der künstlichen-Intelligenz-Forschung ist es, Maschinen zu erhalten, um Probleme zu lösen, ohne den nutzen des historischen Wissens. Reinforcement learning kann helfen, aber wie gesagt, diese Strategie funktioniert nicht sehr gut für den Rubik ‘ s Cube. Um diese Einschränkung zu überwinden, wird ein Forscherteam von der University of California, Irvine, entwickelt eine neue KI-Technik, bekannt als Autodidaktische Iteration.

“Zur Lösung der Rubik’ s Cube mit reinforcement learning ist, wird der Algorithmus lernen, eine Politik”, schreiben die Forscher in Ihrer Studie. “Die Politik bestimmt, welche sich bewegen zu nehmen in einem bestimmten Zustand.”

Zur Formulierung dieser Politik”,” DeepCube schafft seine eigenen verinnerlichten system von Belohnungen. Ohne Hilfe von außen, und mit dem nur die Eingabe werden änderungen an den cube selbst, lernt das system zur Bewertung der Stärke seiner Bewegungen. Aber er tut das auf eine ziemlich geniale, obwohl arbeitsintensiver Weg. Wenn die KI zaubert eine Bewegung, die es eigentlich springt ganz vorn auf die fertige cube und arbeitet seinen Weg zurück, um die vorgeschlagenen bewegen. Dies ermöglicht es, das system zu bewerten, die Allgemeine Stärke und die Kompetenz der Bewegung. Sobald es erworben hat, eine ausreichende Menge von Daten in Bezug auf Ihre aktuelle position, er verwendet eine traditionelle Baum-such-Verfahren, in dem es untersucht jeden möglich bewegen, um zu bestimmen, welche ist die beste,, den Würfel zu lösen. Es ist nicht das eleganteste system in der Welt, aber es funktioniert.

Die Forscher unter der Leitung von Stephen McAleer, Wald Agostinelli, und Alexander Shmakov, ausgebildet DeepCube über zwei Millionen verschiedene Iterationen auf acht Milliarden Würfel (darunter auch einige wiederholt), und er trainiert für einen Zeitraum von 44 Stunden auf einer Maschine, die mit einer 32-core Intel Xeon E5-2620-server mit drei NVIDIA Titan XP-GPUs.

Ein Beispiel DeepCube Strategie. Mit 17 von 30, die KI erschaffen hat, die 2x2x2 Ecke, während die Gruppierung der angrenzenden Kanten und Ecken zusammen—eine Technik, die Häufig von speedcubers. Abbildung: S. McAleer et al., 2018

Das system entdeckt “eine Bemerkenswerte Menge von Rubik’ s-Cube-Kenntnisse während Ihrer Ausbildung”, schreiben die Forscher, einschließlich einer Strategie verwendet, die durch fortgeschrittene speedcubers, nämlich eine Technik, bei der der Ecke und edge-cubelets sind aufeinander abgestimmt zusammen, bevor Sie Sie in Ihre richtige Position. “Unser Algorithmus ist in der Lage, zu lösen, zu 100 Prozent nach dem Zufallsprinzip verschlüsselt-Würfel, während das erreichen der median lösen Länge von 30 Züge —weniger-als-oder-gleich-Löser, beschäftigen Mensch wissen”, schreiben die Autoren. Es gibt Raum für Verbesserungen, wie DeepCube Probleme mit einer kleinen Gruppe von cubes, die führte in einigen Lösungen dauert länger als erwartet.

Blick in die Zukunft, die Forscher würden gerne testen das neue Autodidaktische Iteration Technik, härter, 16-seitige Würfel. Mehr praktisch, diese Forschung könnte verwendet werden, um Reale Probleme lösen, wie die Vorhersage der 3D-Form von Proteinen. Wie der Rubik ‘ s Cube, der protein-Faltung ist eine kombinatorische Optimierungsproblem. Aber anstatt herauszufinden, die nächste Stelle zu bewegen ein cubelet, könnte das system herauszufinden, die richtige Reihenfolge der Aminosäuren entlang einer 3D-Gitter.

Das lösen von Rätseln ist alles schön und gut, aber das letztendliche Ziel ist AI die Beseitigung einiger der weltweit dringendsten Probleme, wie drug discovery, DNA-Analyse, und Roboter zu bauen, die funktionieren in einer menschlichen Welt.

[arXiv via MIT Technology Reivew]


Date:

by