ReforzadoAprendizaje
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/907af6c7ce34479ad1a6c2beec8f4b9d.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/cd58e350259466e7e10a8ed4eb67c455.jpeg)
En esta presentación • Aprendizaje Reforzado • Aprendizaje basado en modelos • Aprendizaje sin modelos • Evaluación Directa • Aprendizaje de diferencias temporales • Q learning • Funciones de Exploración • Representaciones basdas en Características
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/d374c1262e94372b733ec637914f2cbb.jpeg)
Procesos de decisión de Markov (MDP) - Offline • Un MDP se define por: • Un conjunto de estados • un conjunto de acciones • Un modelo de transición • Probabilidad de que • Una función de recompensa • Un estado de inicio • Posiblemente un estado terminal • Función de utilidad que es recompensas adicionales (con descuento) • Los MDP son problemas de búsqueda totalmente observables pero probabilísticos
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/edc81d10348f77ad1a6560d2c0b70c39.jpeg)
Aprendizaje reforzado Online • Todavía suponga un proceso de decisión de Markov (MDP): • Un conjunto de estados s Î S • Un conjunto de acciones (por estado) A • Un modelo T(s,a,s') • Una función de recompensa R(s,a,s') • Sigo buscando una politica p(s) • Nuevo giro: no sé T o R • decir, no sabemos qué estados son buenos o qué hacen las acciones. • En realidad debe probar acciones y estados para aprender
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/f3395ef55e469950b81f744cc4faf66e.jpeg)
Aprendizaje reforzado • Idea básica: • Reciba retroalimentacion en forma de recompensas • La utilidad del agente está definida por la función de recompensa • Debe (aprender a) actuar para maximizar las recompensas esperadas • ¡Todo el aprendizaje se basa en muestras observadas de resultados! AmbienteAgente Acciones: a estado: s Recompensa: r
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
Aprendizaje reforzado
• Muestreo: es posible que deba repetir muchas veces para obtener buenas estimaciones • Generalización: lo que aprende en un estado también puede aplicarse a otros
• Exploración: tiene que probar acciones desconocidas para obtener información • Explotación: eventualmente, tiene que usar lo que sabe
Ideas básicas:
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
Aprendizaje basado en modelos
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/70fe2e620ae50f3acc22295d954ccaf4.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/1342eaa3fd3c793cf824d86917fcbe54.jpeg)
Aprendizaje basado en modelos • Idea basada en modelos un modelo aproximado basado en experiencias
Aprende
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/d876cb923e9fe2583be3fbbf4940893e.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/7c7bcd9fe20754e9f49132a4b202d065.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/af8d8a973cb91bfe1e71ab412aa43207.jpeg)
Ejemplo: aprendizaje basado en modelos Política entradade p Suponga: g = 1 Episodios observados (entrenamiento) A B C D E B, este, C, -1 C, este, D, 1 D, salida, x, +10 Episodio 1 Episodio 3 E, norte, C, -1 C, este, D, 1 D, salida, x, +10
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/7c7bcd9fe20754e9f49132a4b202d065.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/af8d8a973cb91bfe1e71ab412aa43207.jpeg)
Pros y contras • Pro: • Hace un uso eficiente de las experiencias. • Con: • No se puede escalar a grandes espacios de estado. • Aprende a modelar un par estado vez (pero esto se puede arreglar • No se puede resolver MDP para un |S| muy grande.
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/158a4c63b062ebe0637c34485e9b3756.jpeg)
Analogía: edad esperada Meta: Calcular la edad esperada de los estudiantes P(A) desconocido: “Basado en modelo” P(A) desconocido: “Modelo libre” Sin P(A), recolecte muestras [a1 , a2 , … aN ] P(A) conocido ¿Por qué funciona esto? Porque las muestras aparecen con las adecuadas.frecuencias ¿Por qué funciona esto? aprendeseventualmentePorqueelmodelocorrecto.
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/ed7763b326076d3e1cba7741c2707993.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/137c5f623f6dc16ad8539104fdd99f93.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/29a38fc76e7106414a7027ac47c78c0f.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/5268290b9c2256c08a8937ba894af5a3.jpeg)
sinAprendizajemodelo
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/70fe2e620ae50f3acc22295d954ccaf4.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/262edc84d5e227e1c73fbb95888a608c.jpeg)
Aprendizaje por refuerzo pasivo • Tarea simplificada: evaluación de políticas • Entrada: una política fija p(s) • No conoces las transiciones T( • No sabes las recompensas R( • Objetivo: aprender los valores del estado • En este caso: • El alumno está “yendo con la corriente" • No hay elección sobre qué acciones tomar • Simplemente ejecute la política y aprenda de la experiencia • ¡Esto NO es una planificación offline! Realmente tomas acciones en el mundo.
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/158a4c63b062ebe0637c34485e9b3756.jpeg)
Evaluación Directa • Meta: Calcular valores para cada estado bajo p • Idea: promedio de los valores de muestra observados juntos • Actuar de acuerdo con p • Cada vez que visite un estado, anote cuál resultó ser la suma de las recompensas con descuento • Promediar esas muestras • Esto se llama evaluación directa.
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/e65a2bd948fa860193402f81fbf1ca43.jpeg)
Ejemplo: Evaluación Directa Política de entrada p Suponga: g = 1 Episodios observados (entrenamiento) Valores de salida V(s) A B C D E B, este, C, -1 C, este, D, 1 D, salida, x, +10 B, este, C, -1 C, este, D, 1 D, salida, x, +10 E, norte, C, -1 C, este, A, 1 A, salida, x, -10 Episodio 1 Episodio 2 Episodio 3 episodio 4 E, norte, C, -1 C, este, D, 1 D, salida, x, +10 A B C D E +8 +4 +10-10-2 Si B y E van a C bajo esta política, ¿cómo pueden ser diferentes sus valores?
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
Problemas con la evaluación directa • ¿Qué tiene de bueno la evaluación directa? • es fácil de entender • No requiere ningún conocimiento de T, R • Eventualmente calcula los valores promedio correctos, usando solo transiciones de muestra • ¿Qué tiene de malo? • Desperdicia información sobre conexiones de estado. • Cada estado debe aprenderse por separado. • Entonces, lleva mucho tiempo aprender Valores de salida A B C D E +8 +4 +10-10-2 Si B y E van a C bajo esta política, ¿cómo pueden ser diferentes sus valores?
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
• Sin embargo, de las 4 veces que nuestro agente estuvo en el estado C, hizo la transición a D y cosechó una recompensa de 10 tres veces y pasó a A y cosechó una recompensa de −10 una vez.
• Con suficientes episodios, los valores de B y E convergerán a sus valores reales, pero casos como este hacen que el proceso tarde más de lo que nos gustaría.
• Según la ecuación de Bellman, esto significa que tanto B como E deberían tener el mismo valor bajo π.
Si B y E van a C bajo esta política, ¿cómo pueden ser diferentes sus valores?
• Fue pura casualidad que la única vez que recibió la recompensa de -10 comenzara en el estado E en lugar de B, pero esto distorsionó severamente el valor estimado para E.
• Este problema se puede mitigar eligiendo utilizar nuestro segundo algoritmo de aprendizaje por refuerzo pasivo, el aprendizaje por diferencia temporal.
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
Aprendizaje
de diferencias temporales • •
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/08b457a542276a3f0141abb49ebe931f.jpeg)
Ejemplo: aprendizaje de diferencias temporales Suponga: g = 1, α = 1/2 A B C D E Estados
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/896cf69004000ea2cf0963b7c627f76f.jpeg)
Problemas
con TD Value Learning a s s, un s,a,s ' s '
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/4be0ac7d6d58455f9e06dc98bfcf7b5a.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/f9cfbdc354418abb740499b2d6e24540.jpeg)
Q-learning • Q-Learning: iteración de valor Q basada en muestras • valores de Q( s,a ) sobre la marcha • Recibir una muestra ( s,a,s',r ) • Considere su estimación anterior: • Considere su nueva estimación de muestra: • Incorpore la nueva estimación en un promedio móvil: ¡ya no evaluaciónhaydepolíticas!
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/2ca6f3dacd5a33794db09ab1c4cb9535.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/148f3bc4f027d8ed8bdbe030aeb0d42a.jpeg)
•
Aprendizaje por refuerzo pasivo: • Un agente de aprendizaje pasivo tiene una política fija que determina su comportamiento.
Un agente de aprendizaje activo puede decidir qué acciones tomar
•
Aprendizaje por refuerzo activo
•
Aprendizaje por refuerzo activo:
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/ef0e04df8f3a850cd6a4ad4409d585a9.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/5bf8975cc04fabd0b22e762080bd0526.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/70f791ee6e2ad9cdf6ceab488344ca4e.jpeg)
Q-Learning: actuar según el óptimo actual (y también explorar …) • Aprendizaje de refuerzo completo: políticas óptimas (como iteración de valor) • No conoces las transiciones T( s,a,s ‘). • No sabes las recompensas R( s,a,s ‘). • Tú eliges las acciones ahora. • Objetivo: conocer la política/los valores óptimos. • En este caso: • ¡El programa toma decisiones! • Compensación fundamental: exploración frente a explotación. • ¡Esto NO es una planificación fuera de línea! De hecho, tomas acciones en el mundo y descubres lo que sucede.
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/899bf3160fb2050701e6b02143862a05.jpeg)
Propiedades de Q-Learning • Resultado sorprendente: Q-learning converge en una política óptima, ¡incluso si está actuando de manera subóptima ! • Esto se llama aprendizaje fuera de la política. • Advertencias: • Tienes que explorar lo suficiente • Tienes que eventualmente hacer la tasa de aprendizaje lo suficientemente pequeña • … pero no lo disminuyas demasiado rápido • Básicamente, en el límite, no importa cómo seleccione las acciones
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/b87ee10a06a39371a3054088b392e79c.jpeg)
Aprendizaje por refuerzo activo
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/70fe2e620ae50f3acc22295d954ccaf4.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/ef0e04df8f3a850cd6a4ad4409d585a9.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/5bf8975cc04fabd0b22e762080bd0526.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/70f791ee6e2ad9cdf6ceab488344ca4e.jpeg)
actuar de acuerdo
explora!
Aprendizaje basado en modelos Política de entrada p con política Y también
la
óptima actual
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/a4709be97af47ae44d73e4341050c2df.jpeg)
Exploración vs.
Explotación
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/72501f380d785ecb3c344abfbbc1f5fe.jpeg)
¿Cómo explorar? • Varios esquemas para forzar la exploración • Más simple: acciones aleatorias ( e voraz) • Cada paso de tiempo, lanza una moneda • Con (pequeña) probabilidad e, actuar al azar • Con (gran) probabilidad 1 e, actuar sobre la política actual • ¿Problemas con acciones aleatorias? • Eventualmente exploras el espacio, pero sigues dando vueltas una vez que terminas de aprender. • Una solución: reducir e con el tiempo • Otra solución: funciones de exploración
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/14827b3b325b9f08c33e59710d0eb3dd.jpeg)
Mejor idea: explorar áreas cuya maldad no esta (todavía) establecido, eventualmente dejar de explorar
Funciones de exploración
Toma un valor estimado u y un recuento de visitas n, y devuelve una utilidad optimista, por ejemplo, Nota: ¡esto propaga la "bonificación" a los estados que también conducen estados desconocidos!
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/25b3b9eb889b0ac61e140d4b415a4cf1.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/14346eaf771e2b46697eacdeede647cb.jpeg)
• ¡Incluso si aprende la política óptima, aún comete errores en el camino! • El arrepentimiento es una medida del costo total del error: la diferencia entre recompensas (esperadas), incluida la subóptima juventud y las recompensas óptimas (esperadas).
• Minimizar el arrepentimiento va más allá de aprender a ser óptimo: requiere un aprendizaje óptimo para ser óptimo.
• Ejemplo: la exploración aleatoria y las funciones de exploración terminan siendo óptimas, pero la exploración aleatoria tiene un mayor arrepentimiento
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/d723b54830da6bf230110f6c3b8b5fab.jpeg)
aproximadoQ-Learning
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/70fe2e620ae50f3acc22295d954ccaf4.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/6e4f853f452225919e88d8488486653d.jpeg)
Generalizando a través de los estados • Q-Learning básico mantiene una tabla de todos los valores• ¡En situaciones realistas, no podemos aprender sobre cada estado! • Demasiados estados para visitarlos todos en entrenamiento • Demasiados estados para mantener las tablas memoria. • En su lugar, queremos generalizar: • Aprenda sobre una pequeña cantidad de estados de entrenamiento a partir de la • Generalizar esa experiencia a situaciones nuevas y similares. • Esta es una idea fundamental en el aprendizaje automático.
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/c5acea324d31f9b5497f192c7a7d4eef.jpeg)
Ejemplo: Pacman Digamos experienciadescubrimosqueporqueesteestadoesmalo: En q-learning ingenuo, no sabemos nada sobre este estado: ¡O incluso este!
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/df10c4e3ed53f046e19b096aac951439.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/df10c4e3ed53f046e19b096aac951439.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/4d88901ad2f190fa20dba39f69b8ab20.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/633e4752497b9d719374b61cb3f9c92e.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/2e4f1008492c12217969ee7faebdebb6.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/df10c4e3ed53f046e19b096aac951439.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/df10c4e3ed53f046e19b096aac951439.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/df10c4e3ed53f046e19b096aac951439.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/df10c4e3ed53f046e19b096aac951439.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/4d88901ad2f190fa20dba39f69b8ab20.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/633e4752497b9d719374b61cb3f9c92e.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/2e4f1008492c12217969ee7faebdebb6.jpeg)
Representaciones basadas en características • Solución: describe un estado usando un vector de características (propiedades). • Las características son funciones de estados a números reales (a menudo 0/1) que capturan propiedades importantes del estado • Características de ejemplo: • Distancia al fantasma más cercano • Distancia al punto más cercano • número de fantasmas • 1 / (distancia al punto) 2 • ¿ Pacman está en un túnel? (0/1) • …… etc. • ¿Es el estado exacto en esta diapositiva? • También puede describir un estado q (s, a) concaracterísticas (p. ej., la acción acerca a Pacman a lacomida)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/df10c4e3ed53f046e19b096aac951439.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/df10c4e3ed53f046e19b096aac951439.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/4d88901ad2f190fa20dba39f69b8ab20.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/633e4752497b9d719374b61cb3f9c92e.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/2e4f1008492c12217969ee7faebdebb6.jpeg)
Funciones de valor lineal
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/1964c3ea405c056eeacac7dce96ad133.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/9995a08f6cb99ed6e61a8d6111a5ef0e.jpeg)
Resumen: MDP y RL MDP conocido: solución fuera de línea Meta Calcular V*, Q*, p * Evaluar una política fija p MDP desconocido: basado en modelos MDP desconocido: sin modelo Meta Calcule V*, Q*, p * Evaluar una politica fija p Técnica ValueQ-learningLearning Técnica Valor/iteración de política Evaluación de políticas Técnica VI/PI en MDP aprox. PE en MDP aprox. Meta Calcule V*, Q*, p * Evaluar una politica fija p
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/019e7bccbf9abca4c5ffc7f2393714f0.jpeg)
![](https://assets.isu.pub/document-structure/220818215036-7ae6ccd1b5436d1e889fd65516d14a11/v1/d991ec7482886637ea98e6e9db426099.jpeg)