„Student of Games“, der Algorithmus, der beim Schach und Poker gewinnt | Technologie

Ein neuer Algorithmus namens Student der Spiele (auf Englisch, Spielestudent) ist in der Lage, verschiedene Tischspiele wie Schach, Go, Texas Hold’em Poker und andere zu gewinnen Scotland Yard, ein Strategiespiel. Das Programm für künstliche Intelligenz kombiniert geführte Suche, maschinelles Lernen und spieltheoretisches Denken, wie die Forscher, die es entwickelt haben, in der am Mittwoch in der Zeitschrift veröffentlichten Studie erklären Wissenschaftliche Fortschritte. Bisher konnte der AlphaZero-Algorithmus nur Spiele mit perfekten Informationen lösen, etwa Schach und Go, bei denen alle Spieler Zugriff auf die gleichen Informationen haben. Allerdings konnte er beim Poker nicht gewinnen, da es sich um ein Spiel mit unvollständigen Informationen handelte und die Karten der Gegner nicht bekannt waren.

Die Forschung wurde durchgeführt, während die Experten bei Google DeepMind arbeiteten, der Forschungsabteilung für künstliche Intelligenz von Google. Allerdings verließen mehrere Teammitglieder Google im Januar 2022 und das Unternehmen entließ später im Januar 2023 den Großteil des verbleibenden Teams.

Das Tool ist in der Lage, mit minimalem Wissen in perfekten und unvollständigen Spielen zu gewinnen. Unser Algorithmus ist in der Lage, auf der Grundlage der Spielregeln zu argumentieren. Lernen Sie zum Beispiel, sie alle zu spielen (Schach, Poker, Go usw.). Scotland Yard) nur mit den Regeln, ohne weitere Informationen zu erhalten“, erklärt Finbarr Timbers, Midjourney-Forscher und Autor der Studie. „Mit ihnen bestimmen Sie, welche Maßnahmen Sie ergreifen können und ob Sie gewonnen oder verloren haben“, fährt er fort.

Um zu wissen, welche Schritte zu jedem Zeitpunkt zu unternehmen sind, basiert der Algorithmus auf der sogenannten „kontrafaktischen Minimierung des Bedauerns“. Dabei steht die Analyse aller möglichen Spielzüge im Vordergrund. „Bedauern“ bedeutet laut Timbers, „wie gut man hätte abschneiden können, wenn man optimal gespielt hätte, abzüglich wie gut man tatsächlich gespielt hat.“ Ein Beispiel: Wenn Sie beim Pokern nach einigen Spielen 200 Chips gewonnen haben, bei anderen aber 1.000 hätten gewinnen können, liegt das Bedauern bei 800 Chips. Daher ist das Ziel von Spielestudent besteht darin, die 800 Chips so weit wie möglich zu reduzieren. Dabei werden alle möglichen Szenarien mit aufgedeckten Karten, also öffentlichen Informationen, berücksichtigt und der Durchschnitt aller Karten ermittelt.

Lesen Sie auch  Selbst mit Verteidigungstools sagen CISOs, dass Cyberangriffe „unvermeidlich“ sind.

Alle möglichen Szenarien konvergieren zum Nash-Gleichgewicht, dem Theorem des amerikanischen Mathematikers John Nash. Die Spieler in einem Spiel spielen ihre Strategien zur Gewinnmaximierung und passen sie im Laufe des Spiels an die Spielzüge anderer an. Timbers und seine Kollegen haben es auf den Algorithmus abgesehen, um in den meisten Situationen eine optimale Strategie zu finden.

Jedes Spiel entführt den Teilnehmer in verschiedene Szenarien. Wenn Sie sich beim Schach an einer bestimmten Position auf dem Brett befinden, können Sie die möglichen Züge durchsuchen, um den besten Zug zu finden. Beim Poker funktioniert das jedoch nicht. Timbers erklärt, dass man die Auswirkungen von Spielzügen in anderen Situationen berücksichtigen muss: „Wenn Sie jedes Mal, wenn Sie eine starke Hand haben, hohe Einsätze machen, zeigen Sie Ihrem Gegner durch aggressive Einsätze, dass Sie eine gute Hand haben.“ Ebenso verraten Sie Ihrem Gegner, was Ihre Hand ist, wenn Sie mit dem Wetten aufhören, obwohl Sie eine schwache Hand haben.“

Das britische Unternehmen DeepMind, seit 2014 im Besitz von Google, hat einen Algorithmus namens R-NaD entwickelt, der in der Lage ist, Stratego wie ein erfahrener Mensch zu spielen, ein beliebtes 40-Chips-Spiel, bei dem Spieler die Flagge des Gegners erobern oder ihn ohne Chips zurücklassen müssen. R-NaD verwendet algorithmische Tricks, um eine gute Leistung zu erzielen, jedoch ohne die Suchmethode zu verwenden. Aus diesem Grund ist es nicht so stark wie ein Algorithmus. Student: „Die Literatur hat in der Vergangenheit gezeigt, dass Algorithmen, die mögliche Aktionen durchsuchen, bei Spielen oft besser sind als Algorithmen, die keine Suche verwenden, aber sie sind langsamer und teurer im Training“, verrät Timbers.

Lesen Sie auch  Jupiter und Venus vereinen sich am Mittwoch am Abendhimmel

Wettbewerbsfähige künstliche Intelligenz wird eingesetzt, um die Effektivität von Computerprogrammen zu messen und ein besseres Spielerlebnis zu erzielen, kann aber auch negative Auswirkungen haben: „Es ist sehr wahrscheinlich, dass es auf Poker-Wett-Websites und bei ähnlichen Spielen zu Betrug kommt.“ Viele kompetitive Videospiele werden versuchen, unflexibel zu sein Software auf den Computern jedes Spielers erlaubt, um sicherzustellen, dass keine künstliche Intelligenz spielt, was Riot Games bereits tut Wertschätzung (2020)“, gibt Diego Rodríguez-Ponga Albalá, Gründer und Direktor von Póntica, an. Dazu weist er darauf hin, dass es absehbar sei, „dass sehr ausgefeilte künstliche Intelligenz entwickelt wird, um automatisch zu erkennen, ob der Spieler ein Mensch ist oder nicht.“

Gema Ruiz, Innovationsleiterin bei Softtek EMEA, weist auch auf andere Einschränkungen des Algorithmus hin, wie etwa die Verwendung von Wettabstraktionen beim Poker und „Rechenaufwand“. Die Verwendung von Abstraktionen besteht darin, ähnliche Spiele zu gruppieren, die auf die gleiche Weise behandelt werden, um die Komplexität des Spiels zu verringern. Wenn der Student Poker trainiert, verwendet er zufällige Wettabstraktionen, um die Anzahl der Aktionen von 20.000 auf 4 oder 5 zu reduzieren. Die Studie legt nahe, dass sein Einsatz in Zukunft durch „eine umfassendere Richtlinie, die eine Vielzahl von Aktionen bewältigen kann“ ersetzt werden könnte in Spielsituationen mit einer Vielzahl möglicher Entscheidungen“, sagt Ruiz. Darüber hinaus ist die Aufzählung aller möglichen Bewegungen des Algorithmus mit hohen Kosten verbunden und dafür schlagen sie laut Studie ein „generatives Modell“ vor. Dadurch werden Zustandsbeispiele generiert [estrategias] der Welt und arbeitet mit der Teilmenge der ausgewählten Samples, anstatt alle möglichen Handkombinationen aufzulisten.

Lesen Sie auch  Anthony Davis führt die Lakers zur Turniermeisterschaft in der Saison

Dennoch ist das Tool für Ruiz „ein vielversprechender Anwärter auf dem Gebiet der auf künstlicher Intelligenz basierenden Gaming-Algorithmen“. Es unterstreicht „seine Fähigkeit, die Leistung mit mehr Rechenressourcen zu verbessern, zusammen mit soliden theoretischen Grundlagen.“

Du kannst Folgen EL PAÍS-Technologie In Facebook j X oder melden Sie sich hier an, um unsere zu erhalten Newsletter-Semanal.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.