‘Übermenschliche’ AI Zermalmt Poker-Pros zu Sechs Spieler Texas Hold ‘ em

Illustration for article titled ‘Superhuman’ AI Crushes Poker Pros at Six-Player Texas Hold'em Abbildung: Chelsea Beck (Gizmodo)

Computer-Wissenschaftler entwickelt haben, eine Karte-spielen bot, genannt Pluribus, besiegen einige der besten Spieler der Welt in sechs-Personen-no-limit Texas hold ‘ em poker, was als ein wichtiger Durchbruch in der künstlichen Intelligenz.

Vor zwei Jahren, ein Forscherteam von der Carnegie Mellon Universität entwickelt eine ähnliche poker-spielen-system, genannt Libratus, die konsequent gegen die weltbesten Spieler an one-on-one-Heads-Up-No-Limit-Texas Hold ‘ em poker. Die Macher von Libratus, Tuomas Sandholm und Noam Braun, haben jetzt steigerte Sie die Einsätze, die Enthüllung eines neuen Systems in der Lage zu spielen sechs-Spieler no-limit Texas hold ‘ em poker ist eine sehr beliebte version des Spiels.

In einer Reihe von Wettbewerben, Pluribus im Alleingang besiegt seine professionelle menschliche Gegner auf einem Niveau, das die Forscher beschreiben als “übermenschlich.” Wenn entsteint gegen professionelle menschliche Gegner mit echtem Geld beteiligt, Pluribus geschafft, zu gewinnen mit einer erstaunlichen rate von $1.000 pro Stunde. Details zu dieser Errungenschaft wurden heute veröffentlicht in der Wissenschaft.

In den letzten Jahrzehnten, KI-Forscher haben mehr Erfolg hatte die Entwicklung von Maschinen in der Lage zu spielen perfect-Informationen, zwei-Spieler-null-Summen-Spiele. Das heißt, Spiele, die Kopf-an-Kopf-matches, in denen beide Spieler wissen, was passiert, im Spiel (z.B. Schach-Spieler können sehen, alle Figuren auf dem Brett), und in denen ein Spieler gewinnt und der andere verliert. Durch Kontrast, poker ist ein Informations-unvollständige-Spiel, in dem die Spieler können nicht sicher sein, welche Karten Ihre Gegner halten sind, und welche noch im deck. Andere Elemente, wie das Wetten und bluffen, hinzufügen, um das Spiel der Komplexität und Unberechenbarkeit. Fügen Sie mehrere Spieler auf die Mischung, und die Komplexität steigt noch weiter.

Für KI-Forscher, poker stellt ein besseres Modell von der realen Welt. Selten im Leben tun, Situationen betreffen nur einen Gewinner und einen Verlierer, oder Szenarien, in denen Informationen vollständig zur Verfügung stehen. Durch die Verbesserung der AI der Fähigkeit mit versteckten Informationen, die in den multi-Teilnehmer-Szenarien, computer-Wissenschaftler sind dramatisch erweitert die Domänen, in denen AI verwendet werden kann.

“Während ich bin nicht fokussiert auf eine bestimmte Anwendung, denke ich, dass diese Forschung angewendet werden können, um eine Vielzahl von Einstellungen, wie Cyber-Sicherheit, Betrugs-Erkennung, Bekämpfung feindlich Verhalten, und sogar eine self-driving-car Navigation-traffic,” Brown sagte Gizmodo.

Für die neue Studie, Brown und Sandholm unterzogen Pluribus zwei anspruchsvolle tests. Die ersten entsteint Pluribus gegen 13 verschiedene Profi-Spieler—von denen alle haben es verdient, mehr als $1 Millionen in poker gewinnen—in der sechs-Spieler-version des Spiels. Der zweite test beteiligten entspricht, mit zwei poker-Legenden, Darren Elia und Chris “Jesus” Ferguson, von denen jeder war in einem Kampf gegen fünf identische Kopien Pluribus.

Die Spiele mit fünf Menschen und Pluribus beteiligten sich 10.000 Hände gespielt, der über 12 Tage. Zu Anreizen durch die menschlichen Spieler, eine Summe von $50.000 wurde unter den Teilnehmern verteilt, Pluribus enthalten. Die Spiele waren blind, dass keiner der menschlichen Spieler, die erzählt wurden, die Sie spielten, aber jeder Spieler hatte eine konsistente alias verwendet, während die Konkurrenz. Für die tests mit einem einzigen Menschen und fünf Pluribuses, jeder Spieler erhielt $2.000 für die Teilnahme und einen bonus von $2.000 für das spielen besser als Ihre menschlichen Kohorte. Elia und Ferguson, beide gespielt von 5.000 Hände gegen Ihre Maschine Gegner.

In allen Szenarien, Pluribus registriert, gewinnt mit “statistischer Signifikanz” und zu einem gewissen Grad sind die Forscher bezeichnet als “übermenschlich.”

“Wir meinen, übermenschlich in dem Sinne, dass es besser abschneidet als die besten Menschen”, sagte Brown, ist dem Abschluss seines Ph. D. als wissenschaftlicher Mitarbeiter bei Facebook AI. “Der bot gewann mit über fünf big blinds pro hundert Hände poker (bb/100) beim spielen gegen die fünf elite-Menschen-Profis, die Profis erwägen, um eine sehr hohe win-rate. Zu beat-elite professionals, die Marge wird als ein entscheidender Sieg. Es ist ein bisschen schwer zu qualifizieren, diese in eine [einfach] Weg…, aber ein Weg, um es zu verstehen ist, dass wenn der bot waren für das echte Geld spielend, würde es gewonnen haben ungefähr $1.000 pro Stunde.”

Und das ist, gegen einige der weltweit besten poker-Spieler. Schmücken Pluribus mit übermenschlichen status, scheint es durchaus gerechtfertigt, und Roman Yampolskiy, ein Informatiker an der University of Louisville, wer war nicht beteiligt mit der neuen Arbeit, stimmt.

“Die Maschine zeigte übermenschliche Leistung, besiegte die besten Spieler der Welt”, sagte Yampolskiy Gizmodo. “Offensichtlich konnte die Niederlage der schwächeren Spieler, was bedeutet, dass es überlegen ist, alle Menschen machen seine Leistung zweifellos ein übermenschliches in dieser Domäne.”

Für Yampolskiy, die Leistung war von Bedeutung, weil “im Gegensatz zu Schach oder Go, das Spiel von Poker hat versteckte Informationen und das element des Glücks, das heißt, Sie können nicht nur outcompute Menschen, Sie zu übertrumpfen”, sagt er. “Poker hat insbesondere war einer der ersten sandbox für AI, und zu zeigen, wie eine Ebene von Dominanz in eine uneingeschränkte version von poker mit vielen Spielern wurde ein Heiliger Gral der Forschung seit den frühen Tagen der KI.”

Um ein system zu schaffen in der Lage ordentlich zu spielen sechs-Spieler no-limit Texas hold ‘ em poker, Braun und Sandholm beschäftigt eine Wundertüte von Strategien, einschließlich der neuen algorithmen das duo entwickelt sich.

Bevor der Wettbewerb begann, Pluribus entwickelt seinen eigenen “Plan” – Strategie, die es getan haben, indem Sie poker spielen mit sich selbst für acht Tage.

“Pluribus verwendet keine menschliche gameplay Daten zu seiner Strategie,” erklärt Braun. “Stattdessen Pluribus verwendet zunächst sich selbst spielen, in denen Sie spielt gegen sich selbst über Trillionen von Händen zu formulieren, eine grundlegende Strategie. Es beginnt durch das spielen völlig zufällig. Wie spielt es sich mehr und mehr Hände gegen sich selbst, seine Strategie allmählich verbessert, wie es lernt, welche Handlungen führen zu gewinnen mehr Geld. All dies geschieht offline, bevor Sie jemals zu spielen, gegen Menschen.”

Bewaffnet mit seiner blueprint-Strategie, der Wettbewerbe konnten beginnen. Nachdem die ersten Wetten platziert wurden, Pluribus berechnet mehrere mögliche nächsten Schritte für jeden Gegner, in einer Weise ähnlich wie die Maschinen spielen Schach und Go. Der Unterschied hier ist jedoch, dass Pluribus war nicht beauftragt, zu berechnen, das gesamte Spiel, denn das wäre “rechnerisch untragbar” wie bereits von den Forschern.

“In Pluribus, haben wir eine neue Art von Suchmaschine, die nicht zu suchen haben, den ganzen Weg zum Ende des Spiels,”, sagte Brown. “Stattdessen kann es halt nach ein paar Zügen. Das macht der such-Algorithmus wesentlich skalierbarer. Insbesondere, ermöglicht es uns zu erreichen, übermenschliche Leistung, während nur training für den Gegenwert von weniger als $150 auf ein cloud-computing-service, und spielen in Echtzeit auf nur zwei CPUs.”

Sogar mit begrenztem look-ahead-Strategie, Pluribus noch in der Lage war zu beherrschen, seine menschlichen Gegner.

Wichtig ist, Pluribus wurde so programmiert, dass Sie unberechenbar werden—ein wesentlicher Aspekt der guten poker-Spielkunst. Wenn Pluribus konsequent Wette Tonnen von Geld, wenn er dachte, es hatte die beste hand, zum Beispiel, sein Gegner würde schließlich zu fangen. Um dies zu beheben, wurde das system programmiert, um zu spielen in einem “ausgewogenen” Weise, den Einsatz einer Reihe von Strategien, wie bluffen, verhindert, dass Pluribus’ Gegner von Kommissionierung bis auf Ihre Tendenzen und Gewohnheiten.

Einige der Strategien, die von Pluribus kam als eine überraschung für die Forscher, einschließlich eine ungewöhnliche Strategie, bekannt als “donk-Wetten,” was passiert, wenn ein Spieler die Wette, aber dann beginnt die nächste Runde mit einem Einsatz. Poker Spieler denken, donking eine schwache Bewegung mit wenig strategischen Sinn.

“Die konventionelle Weisheit ist, dass, wenn Sie gehen zu nennen [match die Wette] und dann bet [während der nächsten Runde], dann könnte man genauso gut erziehen statt, weil es Ihnen mehr Möglichkeiten, um mehr Geld in den Topf”, erklärt Braun. “Donk-Wetten ist etwas, dass schwache Spieler neigen dazu, zu tun, obwohl Sie elite-Profis erkennen, dass es könnte, in der Theorie, eine gute Aktion, wenn man es richtig in den richtigen Situationen. Jedoch, es zu tun korrekt, ohne öffnung ausnutzbare Schwachstellen ist in der Regel zu kompliziert für die Menschen, sogar die elite der menschlichen Profis, so dass die meisten nur selten, wenn überhaupt, tun Sie es. Pluribus Möglichkeiten gefunden hat, zu donk bet sehr viel effektiver in einer Weise, die nicht leicht ausgeschöpft werden können.”

Auch, Pluribus oft viel größer Wetten, dass menschliche Spieler in der Regel zu vermeiden. Brown sagte, dies legen Pluribus’ Gegner in sehr schwierigen Situationen, die es erlaubt, die Maschine zu machen viel mehr Geld mit guten Händen, als es Menschen könnten.

Chris Ferguson, der WSOP champion: Pluribus ist ein sehr harter Gegner gegen Sie zu spielen. Es ist wirklich schwer sich auf jede Art von hand. Er ist auch sehr gut, dass dünne value bets auf dem river. Er ist sehr gut für das extrahieren Wert aus seinen guten Händen. Also es ist schon sehr schwer zu spielen gegen ihn. Er ist wirklich ein sehr starker Gegner.

Darren Elias: Seine große Stärke ist seine Fähigkeit mit gemischten Strategien.Das ist die gleiche Sache, die Menschen versuchen zu tun. Es ist eine Frage der Ausführung für den Menschen – zu tun, diese in eine vollkommen zufällige Art und Weise und zu tun, so konsequent. Die meisten Menschen können es einfach nicht. Der bot war nicht gerade das Spiel gegen einige mitten auf der Straße Profis. Es war, spielen einige der besten Spieler der Welt.”

Jason Les: ich habe wahrscheinlich mehr Erfahrung in kämpfen gegen best-in-class-poker-KI-Systeme als jede andere poker-Profi in der Welt. Ich weiß, alle Flecken zu suchen Schwächen, mit allen tricks zu versuchen, um die Vorteile eines Computers Mängel. In diesem Wettbewerb werden die AI gespielt, Ton -, Spiel-Theorie, die optimale Strategie, dass Sie wirklich nur sehen von oben die menschliche Profis und, trotz meiner Bemühungen, ich war nicht erfolgreich bei der Suche nach einem Weg, es zu nutzen. Ich würde nicht wollen, um zu spielen in einem Spiel von poker, wo diese AI-poker-bot war am Tisch

Jimmy Chou: Wenn die Wiedergabe der bot, ich fühle mich wie ich etwas abholen aufnehme in mein Spiel. Als Menschen, die ich denke, wir neigen dazu, übermäßig vereinfachen das Spiel für uns, so dass Strategien leichter zu erlassen und zu erinnern. Der bot nimmt keine von diese kurzen Schnitte und hat eine Ungeheuer kompliziert/ausgeglichene Spiel Baum für jede Entscheidung.

Sean Ruane: In einem Spiel, mehr als oft nicht, Sie belohnen, wenn Sie zeigen mentale Disziplin, Fokus und Konsistenz, und sicherlich bestrafen Sie, wenn Sie keine der drei konkurrierenden Stunden lang am Ende gegen ein KI-bot, der sich offensichtlich keine sorgen über diese Mängel ist eine anstrengende Aufgabe. Die technischen Einzelheiten und Tiefe Feinheiten der KI-bot-poker-Fähigkeit beachtlich war, was ich aber unterschätzte war die möglichst transparente Kraft – seine unerbittliche Konsequenz.

“Noch einmal, die KI verwaltet zu übertreffen den Menschen, ohne sich auf Daten aus menschlichen spielen”, sagte Yampolskiy Gizmodo. “Dies bedeutet, dass die Maschinen lehren kann sich um komplexe Probleme zu lösen, die unabhängig von menschlicher Betreuung.”

Article preview thumbnail

Wie Können Wir uns Vorbereiten, Katastrophal Gefährlich, AI—und Warum Wir nicht Warten Können

Künstliche Intelligenz in seiner jetzigen form ist meist harmlos, aber das wird nicht lange halten….

Lesen Sie mehr Lesen

Yampolskiy war nicht überrascht davon, wie gut Pluribus durchgeführt, obwohl er hätte zu gern gesehen haben, Pluribus play-standard 10-Spieler-Spiele, und die zimmerreserviereung, ohne das zu befolgen, indem Sie Wetten Beschränkungen (im Gegensatz zu seinen menschlichen Gegner, Pluribus war nicht erlaubt, Wetten zu machen über $10,000).

Was bedeutet überraschung Yampolskiy, jedoch, ist, dass es noch einige Spiele, in denen Computer sind keine übermenschen, die in Bezug auf Ihre Leistung. Wo diese Art von AI angewendet werden könnten, in der Zukunft, sagte Yampolskiy ähnliche Techniken verwendet werden könnten, “übertreffen die Menschen in den Verhandlungen -, Handels-und Spiel-wie Wettbewerbe, wie zum Beispiel Krieg-Strategie.”

Zu dem fügte er hinzu, vielleicht Unheil verkündend: “im Wesentlichen, eine Fertigkeit, die dargestellt werden können, wie ein Spiel-ähnliche situation kann dominiert wird, durch die übermenschliche KI.”

Teilen Sie Diese Geschichte


Date:

by