El Problema Del Bear in En Backgammon Luis Rodríguez Herrador El Problema Del Bear in En Backgammon

Luis Rodríguez Herrador Proyecto fin de carrera El problema del bear in en Backgammon Luis Rodríguez Herrador El problema del bear in en Backgammon Índice Índice 1.Objetivos del proyecto......................................................................................................................3 1.1.Especificación del problema.....................................................................................................4 1.2.Uso de redes para aprender a predecir...................................................................................... 7 1.3.Resumen del contenido del documento.................................................................................. 10 2.Aplicación de redes a juegos.......................................................................................................... 11 3.Revisión histórica del Backgammon.............................................................................................. 14 4.Reglas del juego..............................................................................................................................21 Situación inicial.........................................................................................................................21 Objetivo del juego.....................................................................................................................22 Movimiento de las piezas..........................................................................................................23 Comer piezas.............................................................................................................................25 Bearing off................................................................................................................................ 26 Doubling cube........................................................................................................................... 27 Gammons y Backgammons.......................................................................................................28 Irregularidades...........................................................................................................................29 Bear in....................................................................................................................................... 30 5.Redes TD........................................................................................................................................ 31 5.1.Estructura................................................................................................................................33 5.2.Desarrollo matemático............................................................................................................35 5.3.Problemas de predicción.........................................................................................................41 6.Diseño de una red para el problema del bear in..............................................................................43 6.1.Bear off................................................................................................................................... 44 6.2.Presentación de la red de bear in.............................................................................................46 7.Mejoras sobre las redes TD............................................................................................................ 52 7.1.Combinación con una resolución numérica............................................................................53 7.2.Entrenamiento secuencial....................................................................................................... 54 7.3.Abanico de resultados finales................................................................................................. 57 8.Funcionamiento del software..........................................................................................................59 9.Resultados.......................................................................................................................................67 10.Conclusiones.................................................................................................................................69 Pág. 2 Luis Rodríguez Herrador El problema del bear in en Backgammon 1.Objetivos del proyecto El objetivo de este proyecto es la aplicación de una red TD a un problema concreto, como es el del bear in en el juego del backgammon. Las redes TD siempre han sido fascinantes para mí, desde que topé con ellas, puesto que han sido diseñadas para predecir, para ser capaces de ver donde ojos humanos y otros programas no han sido capaces de llegar. El simbolismo aparejado a la predicción siempre ha sido un tema que me ha interesado mucho, y es por esto que he tratado de usar estas redes en mi proyecto fin de carrera. El motivo por el que elegí el juego del backgammon es que he sido jugador a nivel semiprofesional durante varios años, y la resolución de una parte importante de este juego como es el bear in siempre ha quedado desierta. Al final en las conclusiones haré un estudio económico de lo que puede representar en pérdidas para un programa de backgammon el jugar mal estas posiciones. Sólo comentar que el uso de estas redes ha sido la alternativa elegida a la programación dinámica para la resolución de este problema, que fue la primera opción barajada. Pág. 3 Luis Rodríguez Herrador El problema del bear in en Backgammon 1.1.Especificación del problema El Backgammon, al igual que otros muchos juegos de mesa, supone un reto matemático de difícil solución. Desde el punto de vista computacional, nos enfrentamos a un juego compuesto por quince piezas, las cuales en la mayoría de las situaciones pueden moverse sin problemas acordemente con una tirada de dos dados. De esta forma, una simple tirada de dados supone una combinación de: 15×15=225 movimientos Por tanto, para una determinada posición nos enfrentamos aproximadamente a 225 posibilidades, sin tener en cuenta que una tirada con idéntico resultado en los dados son cuatro movimientos en lugar de dos, y a los que hay que restar los movimientos ilegales. Para tomar una decisión sobre cuál de las 225 posiciones resultantes es mejor, debemos evaluar posteriormente la jugada que realizará el contrario. Pero resulta que el contrario no tiene otras 225 posibilidades, sino que tiene ese número por cada una de las 21 combinaciones posibles de dados, de forma que el crecimiento exponencial de posibilidades que ofrece el Backgammon hace absurda la idea de poder realizar un análisis exahustivo de todas las posibilidades, con sus correspondientes estadísticas de llegar a ellas. Tradicionalmente, la única forma de resolver el problema era realizar un número considerable estadísticamente de partidas desde una misma posición. Para que el resultado tuviera alguna fiabilidad, los jugadores empleados a tal fin debían jugar a un nivel de clase mundial, para que los movimientos fueran, si no óptimos, cercanos a él. Por ello, para el desarrollo del Backgammon era necesario que dos campeones mundiales se pasaran una semana jugando una misma posición en miles de partidas para llegar a una conclusión suficientemente fiable de acerca de cuál era la mejor jugada a realizar. Esta Pág. 4 Luis Rodríguez Herrador El problema del bear in en Backgammon afirmación conlleva una contradicción en sí misma, ya que sobre cada jugada posterior realizada en la partida debería hacerse un procedimiento similar a la jugada en estudio, lo cual es imposible, y además los jugadores para llegar a un nivel de perfección tal era necesario que pudieran apoyarse en literatura sobre jugadas concretas inexistentes por su propio planteamiento. Se trató de implementar en ordenadores programas que simularan este comportamiento, pero al tener un juego mediocre, las conclusiones a las que llegaban no podían considerarse fiables y su nivel de juego no era en absoluto excepcional. Es por todo esto que hasta la década pasada las consideraciones matemáticas sólo se trasladaran al backgammon en situaciones puntuales del final del juego donde las posibilidades eran abordables, y que la literatura se refiriera sólo a aspectos estratégicos del juego, los cuales permitían jugar a un gran nivel. Sin embargo, durante la década pasada apareció Tesauro, un programador de IBM, que desarrolló un software basado en redes neuronales que permitía el autoaprendizaje de la red a través del juego contra sí misma. Este fue el primer paso para llevar el Backgammon a un punto de vista hasta entonces no contemplado y que es la referencia en el juego profesional del Backgammon en nuestros días. A partir de ahí surgieron diversos programas de Backgammon, siendo GNU Backgammon y Snowie los dos mejor considerados. Aunque Tesauro no logró que su programa llegara a superar a los campeones del mundo del momento, sí que brindó al resto de programadores de la idea principal en la que debían basarse los programas de Backgammon. El problema que presentaba el software de Tesauro es que trataba de englobar toda la estrategia del Backgammon con una sóla red neuronal, y con unas entradas que se correspondían únicamente con la definición posicional del tablero. Posteriormente se introdujeron mejoras en ambos sentidos, y de esta manera los nuevos programas de software definen redes para ámbitos Pág. 5 Luis Rodríguez Herrador El problema del bear in en Backgammon concretos, e incorporan nuevas neuronas que indican características notables de la posición,

Load more