BúsquedaAdversariosentre
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/da5961ec971c7288184b2ab97c805a1e.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/76b0eeedf2d287dd13511bab5621b7e1.jpeg)
En esta clase • Historia / Resumen • Minimax para juegos de suma cero • Poda α-β • Busqueda de Arbol de Montecarlo
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/d6177f1b060e8475e9eed2179a563810.jpeg)
Una breve historia • Damas: • 1950: Primer reproductor de ordenador. • 1959: programa autodidacta de Samuel. • 1994: Primer campeón mundial de informática: Chinook derrota a Tinsley • 2007: ¡Damas resueltas! Base de datos de finales de 39 billones de estados • Ajedrez: • 1945 1960: Zuse, Wiener, Shannon, Turing, Newell & Simon, McCarthy. • 1960 en adelante: mejora gradual bajo el "modelo estándar" • 1997: Deep Blue derrota al campeón humano Garry Kasparov • 2022: calificación de Stockfish 3541 (frente a 2882 para Magnus Carlsen 2015). • Go: • 1968: El programa de Zobrist juega Go legal, apenas (¡b>300!) • 1968 2005: varios enfoques ad hoc probados, nivel de principiante • 2005-2014: búsqueda de árbol de Monte Carlo -> aficionado fuerte • 2016 2017: AlphaGo derrota a los campeones mundiales humanos • Pac-man?
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/eb30f20ea2bf6ea3f96ab2939274d68e.jpeg)
Juegos de suma cero • Juegos de suma cero • Los agentes tienen utilidades opuestas . • Competencia pura: • Uno maximiza , el otro minimiza • Juegos de suma general • Los agentes tienen utilidades independientes • La cooperación, la indiferencia, la competencia, las alianzas cambiantes y más son posibles • Juegos de equipo • Pago común para todos los miembros del equipo
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/6e58ed790ad118549319864ae1336808.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/62f823a3d2b2ca9d4d5aa9227d2f0a5c.jpeg)
adversariaBúsqueda
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/991232d21abb7f37dda5accd206c1815.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/816ed99adde660ee20bdc08f513ce394.jpeg)
Árboles de agente único 8 2 0 2 6 4 6… … 10 puntos por comer punto; -1 por cada paso de tiempo
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/b8c0df4108ae10abebfb4ad51c0bdde1.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/b8c0df4108ae10abebfb4ad51c0bdde1.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
Valor de un estado 8 2 0 2 6 4 6… … Valor de un estado: el mejor alcanzableresultado(utilidad) de ese estado Estados terminales: V (s) = conocido Estados no terminales: V (s) = max V(s') s' Î sucesores (s)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/b8c0df4108ae10abebfb4ad51c0bdde1.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/b8c0df4108ae10abebfb4ad51c0bdde1.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
Árbol de juego de tres en raya
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/4f0781f162582ffb1d2ea029fcda704e.jpeg)
Valores minimax +8-10-5-8 -8 -10 -8 Nodos MAX: bajo el control del Agente V (s) = max V(s') s' Î sucesores(s) Estados terminales: V (s) = conocido Nodos MIN: bajo el control del Oponente V (s) = min V(s') s' Î sucesores(s)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/25b3d7811728d0d71a7a29b058e5023f.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/b8c0df4108ae10abebfb4ad51c0bdde1.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/25b3d7811728d0d71a7a29b058e5023f.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/25b3d7811728d0d71a7a29b058e5023f.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/b8c0df4108ae10abebfb4ad51c0bdde1.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/25b3d7811728d0d71a7a29b058e5023f.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/b8c0df4108ae10abebfb4ad51c0bdde1.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/25b3d7811728d0d71a7a29b058e5023f.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/25b3d7811728d0d71a7a29b058e5023f.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/a089d212b2819c8e67bf4666b6bc7707.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/25b3d7811728d0d71a7a29b058e5023f.jpeg)
• Elija la acción que conduce al estado con el mejor valor minimax • Supone que todos los movimientos futuros serán óptimos • => racional contra un jugador racional
Algoritmo minimax
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/991232d21abb7f37dda5accd206c1815.jpeg)
El programa incluye cercanía a pacman, pero hay movimiento circundante al final debido a los estados
Coordinación emergente en fantasmas
Dos fantasmas equipados con minimax: pacman no tiene oportunidad.
Estoterminales.podría hacerse con el estado de dos fantasmas, pero en realidad es un minimax de tres jugadores con ambos fantasmas usando min; es decir, surge la coordinación (¡por lo general!)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/c4ece9ecaead27a6c6e9030bfd5a8281.jpeg)
Poda deárbolesdeJuego
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/991232d21abb7f37dda5accd206c1815.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/6620689d96e0d7aaada8b70ce4d24b41.jpeg)
Ejemplo minimax 12 8 5 23 2 144 6 3 2 2 3
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
Ejemplo Alfa-Beta 12 8 5 23 2 14 α = 3 α = 3 α = mejor opción hasta ahora de cualquier Nodo MAX en esta ruta • El orden de generación importa : más la poda es posible si los buenos movimientos son lo primero 3 3
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/35e13e655176443ad73a95854c099ee7.jpeg)
Cuestionario alfa-beta
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/6789faf90c79f3af0d9f96bc23faf394.jpeg)
Cuestionario Alfa Beta 2
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/cb7402306d56595e9e0b20f5c481222b.jpeg)
Propiedades de poda alfa-beta • Teorema: ¡Esta poda no tiene efecto sobre el valor minimax calculado para la raíz! • Un buen ordenamiento de los niños mejora la eficacia de la poda • La profundización iterativa ayuda con esto • Con “ordenamiento perfecto”: • La complejidad del tiempo cae a O ( b m /2 ) • Duplica profundidad soluble! • Este es un ejemplo simple de metarazonamiento. (razonando sobre elrazonamiento) • Para ajedrez: ¡solo 35 50 en lugar de 35 100 ! Yaaay !!!!! 10 10 0 max min
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/32e9b4b2b776ed792fc2c1f652bf76ce.jpeg)
Los juegos son problemas de decisión con ³ 2 agentes Gran variedad de problemas y fenómenos según los detalles de las interacciones y losbeneficios.
Complejidad temporal O ( b m ) , complejidad espacial O ( bm ) alfa-beta Conserva la elección óptima en la raíz.
•
•
•
•
• Poda
Para juegos de suma cero, decisiones óptimas definidas por minimax
Los valores alfa/beta realizan un seguimiento de los mejores valores que se pueden obtenerde cualquier nodo máximo/mínimo en la ruta desde la raíz hasta el nodo actual
Resumen •
•
La complejidad del tiempo cae a O ( b m /2 ) con un orden de nodos ideal
Extensión simple a n-player "girando" max con vectores de utilidades Implementable como un recorrido en profundidad del árbol del juego
•
•
La solución exacta es imposible incluso para juegos "pequeños" como el ajedrez.
•
•
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
Esquema • Anticipación finita y evaluación • Juegos con elementos de azar • Búsqueda del árbol de Montecarlo
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/d6177f1b060e8475e9eed2179a563810.jpeg)
Límites de recursos
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/c054d4e011f4ddc22926f2f7bca99ad1.jpeg)
Límites de recursos • Problema: ¡En juegos realistas, no se puede buscar hastalas hojas! • Solución (Shannon, 1950): anticipación limitada • Busque solo hasta un límite de profundidad u horizonte preestablecido • Usar una función de evaluación para posiciones no terminales • La garantía de juego óptimo se ha ido. • Ejemplo: • Supongamos que podemos explorar 1 millón de nodos pormovimiento • Ajedrez con alfa beta, 35 (8/2) =~ 1M; la profundidad 8 es bastante buena -1 -2 4 9 4 min max -2 4
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/5c7b33adf8c4bdbcb5491a834a4babfb.jpeg)
• Un ejemplo importante de la compensación entre la complejidad de las características y la complejidad de la computación.
• Las funciones de evaluación son siempre imperfectas. • Búsqueda más profunda => mejor juego (generalmente).
• O bien, la búsqueda más profunda brinda la misma calidad de juego con una función de evaluación menos precisa.
La profundidad importa
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/4d4d8b625b3267d9ca924a75bc33d259.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/017e572b71737c79487304df5ff94c7e.jpeg)
Pacman con Profundidad-10 de anticipacion
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/08ab6f90bb1b458087d27b7b9f78e1da.jpeg)
Resultados aleatorios en los árboles 10 10 9 10010 10 9 100 9 10 9 1010 100 tictactoe , minimaxajedrez tetris, Expectimaxinvertir Backgammon, expectiminimaxMonopolio
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/e97bf6e05972a140f7045d056d6aefbe.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/48b550f0f1b99b6adad22e607f65f593.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/262a1eeb459791dda6399e94ac90a83b.jpeg)
Ejemplo: Backgammon • dados aumentan b : 21 tiradas posibles con 2 dados • Backgammon » 20 movimientos legales • 4 capas = 20 x (21 x 20) 3 = 1,2 x 10 9 • A medida que aumenta la profundidad, la probabilidad de llegar a un nodo de búsqueda determinado se reduce • La utilidad de la búsqueda se ve disminuida • La poda es más complicada... • IA histórica: TDGammon (1997) utiliza búsqueda en profundidad 2 + muy buena función de evaluación + aprendizaje reforzado: nivel de juego de campeón mundial
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/0695b6cf11d1a114d3c4fb8717d96932.jpeg)
¿Qué valores usar? • Para el razonamiento minimax en el peor de los casos, la escala de la función de evaluación no importa • Solo queremos mejores estados para tener evaluaciones más altas (ordenar correctamente) • Las decisiones minimax son invariantes con respecto a las transformaciones monótonas de los valores • Las decisiones expectiminimax son invariantes con respecto a las transformaciones afines positivas • Las funciones de evaluacion expectiminimax tienen que estar alineadas con las probabilidades reales de ganar! 0 40 20 30 x2 0 1600 400 900 x>y => f(x)>f(y) f(x) = Ax+B donde A>0
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/56baeb32b50649f88a66c789d5612cd0.jpeg)
Despliegues • Para cada lanzamiento: • Repita hasta la terminal: • Juega un movimiento de acuerdo con una política de implementación rápida y fija • Registrar el resultado • ¡La fracción de ganancias se correlaciona con el verdadero valor de la posición! • Tener una política de despliegue "mejor" ayuda “Jugada 37"
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
MCTS Versión 0 • Realice N lanzamientos de cada hijo de la raíz, registre la fracción de victorias • Elija el movimiento que dé el mejor resultado según esta métrica 57/100 65/10039/100
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
MCTS Versión 0 • Realice N lanzamientos de cada hijo de la raíz, registre la fracción de victorias • Elija el movimiento que dé el mejor resultado según esta métrica 57/100 59/1000/100
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
MCTS Versión 0.9 • Asigne implementaciones a nodos más prometedores 77/140 90/1500/10
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
MCTS Versión 0.9 • Asigne implementaciones a nodos más prometedores 61/100 48/1006/10
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
MCTS Versión 1.0 • Asigne implementaciones a nodos más prometedores • Asignar lanzamientos a nodos más inciertos 61/100 48/1006/10
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
heurística UCB • La fórmula UCB1 combina "prometedor" e "incierto": • N ( n ) = número de despliegues desde el nodo n • U ( n ) = utilidad total de despliegues (p. ej., # victorias) para el jugador(padre(n))
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/4b678433560878815b43c6bfa354729b.jpeg)
MCTS Versión 2.0: UCT • Repita hasta que se acabe el tiempo: • Dado el árbol de búsqueda actual, aplique UCB recursivamente para elegir una ruta hasta un nodo de hoja (no completamente expandido) n • Agregue un nuevo hijo c a n y ejecute un despliegue desde c • Actualice los recuentos de ganancias desde c hasta la raíz • Elija la acción que conduce al niño con mayor N
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
Ejemplo de UCT 2/3 0/1 2/2 4/7 0/1 0/1 4/95/101/11/2
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
Resumen • Los juegos requieren decisiones cuando la optimización es imposible • Búsqueda de profundidad limitada y funciones de evaluación aproximada. • Los juegos fuerzan el uso eficiente de la computación • Poda alfa-beta, MCTS. • El juego ha producido importantes ideas de investigación. • Aprendizaje por refuerzo (damas) • Profundización iterativa (ajedrez) • Metarazonamiento racional (Otelo) • Búsqueda de árbol de Monte Carlo (ajedrez, Go) • Métodos de solución para juegos de información parcial en economía (póquer) • Los videojuegos presentan desafíos mucho mayores, ¡mucho por hacer! • b = 10 500 , | S | = 10 4000 , m = 10 000 , parcialmente observable, a menudo > 2 jugadores
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/8279b344f1f6c176c92f7320e9c182be.jpeg)
![](https://assets.isu.pub/document-structure/220815232856-3c5c3c185a7dfbdeec9dfe676ec68e20/v1/0456266e35a5e7d039c2da4f2f9b9050.jpeg)