Facebook crea un algoritmo que juega al póker mejor que un humano

Un equipo de investigadores de Facebook han desarrollado un algoritmo mediante Inteligencia Artificial (IA) que es capaz de jugar a Poker heads-up Texas Hold’em no-limit mejor que los humanos.
ReBeL es un sistema que utiliza conocimiento habitual en el Poker para tomar decisiones más acertadas, en menor tiempo, dentro un entorno real del juego
Este proyecto se llama Recursive Belief-based Learning (ReBeL) y su rendimiento es óptimo al utilizar una menor cantidad de conocimiento, comparado con otros sistemas de IA de poker existentes. Por ejemplo, otros algoritmos utilizan una combinación de aprendizaje de refuerzo y una serie de patrones de comportamiento. Sin embargo, en la investigación realizada por Facebook se establece que esta mezcla de tecnologías minimiza el rendimiento en juegos como Póker en donde realiza suposiciones que no van en sintonía con el mundo real, porque en una partida de verdad influye la probabilidad de ejecución de las jugadas y la estrategia que aplique el participante.
Facebook busca con ReBeL mejorar esto al permitir que el algoritmo trabaje en un juego poker más real, utilizando conocimiento habitual que adquiere de otros participantes, donde la búsqueda de resultados se realiza con mayor simplicidad y flexibilidad, lo que amplía las posibilidades de derrotar al mejor jugador de póker del mundo.
ReBeL utiliza lo que se llama el «Estado de Creencias Públicas» (PBS, siglas en inglés) para ampliar el conocimiento sobre una partida, haciendo que el algoritmo actúe con mayor naturalidad y certeza. Lo que hace es distribuir una serie de probabilidades de conocimiento habitual del poker en una mesa, con base a una limitada secuencia de posibles respuestas a tomar. Es decir, el PBS viene a ser en un juego de poker real, donde se tienen en cuenta las múltiples opciones que tiene un jugador durante una partida, como apostar más, pagar, retirarse…
Así las cosas, ReBeL lo que hace es crear un juego tipo espejo idéntico a la partida original. Con el PBS genera diferentes posibilidades de actuar en un juego de poker y trata de anticiparse a las posibles respuestas y ver cómo evolucionaría la partida ante cada opción. Todo ese aprendizaje de refuerzo lo suma a su almacenador de conocimiento, creando un red de valor.
ReBeL se ha puesto a prueba con Don King, considerado el mejor jugador de Poker heads-up Texas Hold’em no-limit. En ese encuentro se ejecutaron 7.500 partidas en donde ReBeL tardó entre dos y cinco segundos en decidir su jugada en cada una de ellas. Además, durante las apuestas a ciegas que se hacen por ronda en cada partida, ReBeL obtuvo 165 milésimas, un dato mucho mayor comparado con Libratus, otro sistema de póker creado por Facebook, que en esta misma situación alcanzó 147 milésimas. Además de ReBeL y Libratus, Facebook también cuenta con Pluribus , otro sistema que ha vencido a jugadores expertos del Poker y que fue desarrollado hace un par de años.
De momento la investigación de Facebook ReBel ha sido publicada sin el código fuente, para evitar que se use en otras plataformas e incentivar la trampa y el mal uso de ella ante jugadores online.