Aprendizaje Reforzado -S3

ReforzadoAprendizaje

En esta presentación • Aprendizaje Reforzado • Aprendizaje basado en modelos • Aprendizaje sin modelos • Evaluación Directa • Aprendizaje de diferencias temporales • Q learning • Funciones de Exploración • Representaciones basdas en Características

Procesos de decisión de Markov (MDP) - Offline • Un MDP se define por: • Un conjunto de estados • un conjunto de acciones • Un modelo de transición • Probabilidad de que • Una función de recompensa • Un estado de inicio • Posiblemente un estado terminal • Función de utilidad que es recompensas adicionales (con descuento) • Los MDP son problemas de búsqueda totalmente observables pero probabilísticos

Aprendizaje reforzado Online • Todavía suponga un proceso de decisión de Markov (MDP): • Un conjunto de estados s Î S • Un conjunto de acciones (por estado) A • Un modelo T(s,a,s') • Una función de recompensa R(s,a,s') • Sigo buscando una politica p(s) • Nuevo giro: no sé T o R • decir, no sabemos qué estados son buenos o qué hacen las acciones. • En realidad debe probar acciones y estados para aprender

Aprendizaje reforzado • Idea básica: • Reciba retroalimentacion en forma de recompensas • La utilidad del agente está definida por la función de recompensa • Debe (aprender a) actuar para maximizar las recompensas esperadas • ¡Todo el aprendizaje se basa en muestras observadas de resultados! AmbienteAgente Acciones: a estado: s Recompensa: r

Aprendizaje reforzado

• Muestreo: es posible que deba repetir muchas veces para obtener buenas estimaciones • Generalización: lo que aprende en un estado también puede aplicarse a otros

• Exploración: tiene que probar acciones desconocidas para obtener información • Explotación: eventualmente, tiene que usar lo que sabe

Ideas básicas:

Aprendizaje basado en modelos

Aprendizaje basado en modelos • Idea basada en modelos un modelo aproximado basado en experiencias

Aprende

Ejemplo: aprendizaje basado en modelos Política entradade p Suponga: g = 1 Episodios observados (entrenamiento) A B C D E B, este, C, -1 C, este, D, 1 D, salida, x, +10 Episodio 1 Episodio 3 E, norte, C, -1 C, este, D, 1 D, salida, x, +10

Pros y contras • Pro: • Hace un uso eficiente de las experiencias. • Con: • No se puede escalar a grandes espacios de estado. • Aprende a modelar un par estado vez (pero esto se puede arreglar • No se puede resolver MDP para un |S| muy grande.

Analogía: edad esperada Meta: Calcular la edad esperada de los estudiantes P(A) desconocido: “Basado en modelo” P(A) desconocido: “Modelo libre” Sin P(A), recolecte muestras [a1 , a2 , … aN ] P(A) conocido ¿Por qué funciona esto? Porque las muestras aparecen con las adecuadas.frecuencias ¿Por qué funciona esto? aprendeseventualmentePorqueelmodelocorrecto.

sinAprendizajemodelo

Aprendizaje por refuerzo pasivo • Tarea simplificada: evaluación de políticas • Entrada: una política fija p(s) • No conoces las transiciones T( • No sabes las recompensas R( • Objetivo: aprender los valores del estado • En este caso: • El alumno está “yendo con la corriente" • No hay elección sobre qué acciones tomar • Simplemente ejecute la política y aprenda de la experiencia • ¡Esto NO es una planificación offline! Realmente tomas acciones en el mundo.

Evaluación Directa • Meta: Calcular valores para cada estado bajo p • Idea: promedio de los valores de muestra observados juntos • Actuar de acuerdo con p • Cada vez que visite un estado, anote cuál resultó ser la suma de las recompensas con descuento • Promediar esas muestras • Esto se llama evaluación directa.

Ejemplo: Evaluación Directa Política de entrada p Suponga: g = 1 Episodios observados (entrenamiento) Valores de salida V(s) A B C D E B, este, C, -1 C, este, D, 1 D, salida, x, +10 B, este, C, -1 C, este, D, 1 D, salida, x, +10 E, norte, C, -1 C, este, A, 1 A, salida, x, -10 Episodio 1 Episodio 2 Episodio 3 episodio 4 E, norte, C, -1 C, este, D, 1 D, salida, x, +10 A B C D E +8 +4 +10-10-2 Si B y E van a C bajo esta política, ¿cómo pueden ser diferentes sus valores?

Problemas con la evaluación directa • ¿Qué tiene de bueno la evaluación directa? • es fácil de entender • No requiere ningún conocimiento de T, R • Eventualmente calcula los valores promedio correctos, usando solo transiciones de muestra • ¿Qué tiene de malo? • Desperdicia información sobre conexiones de estado. • Cada estado debe aprenderse por separado. • Entonces, lleva mucho tiempo aprender Valores de salida A B C D E +8 +4 +10-10-2 Si B y E van a C bajo esta política, ¿cómo pueden ser diferentes sus valores?

• Sin embargo, de las 4 veces que nuestro agente estuvo en el estado C, hizo la transición a D y cosechó una recompensa de 10 tres veces y pasó a A y cosechó una recompensa de −10 una vez.

• Con suficientes episodios, los valores de B y E convergerán a sus valores reales, pero casos como este hacen que el proceso tarde más de lo que nos gustaría.

• Según la ecuación de Bellman, esto significa que tanto B como E deberían tener el mismo valor bajo π.

Si B y E van a C bajo esta política, ¿cómo pueden ser diferentes sus valores?

• Fue pura casualidad que la única vez que recibió la recompensa de -10 comenzara en el estado E en lugar de B, pero esto distorsionó severamente el valor estimado para E.

• Este problema se puede mitigar eligiendo utilizar nuestro segundo algoritmo de aprendizaje por refuerzo pasivo, el aprendizaje por diferencia temporal.

Aprendizaje

de diferencias temporales • •

Ejemplo: aprendizaje de diferencias temporales Suponga: g = 1, α = 1/2 A B C D E Estados

Problemas

con TD Value Learning a s s, un s,a,s ' s '

Q-learning • Q-Learning: iteración de valor Q basada en muestras • valores de Q( s,a ) sobre la marcha • Recibir una muestra ( s,a,s',r ) • Considere su estimación anterior: • Considere su nueva estimación de muestra: • Incorpore la nueva estimación en un promedio móvil: ¡ya no evaluaciónhaydepolíticas!

•

Aprendizaje por refuerzo pasivo: • Un agente de aprendizaje pasivo tiene una política fija que determina su comportamiento.

Un agente de aprendizaje activo puede decidir qué acciones tomar

•

Aprendizaje por refuerzo activo

•

Aprendizaje por refuerzo activo:

Q-Learning: actuar según el óptimo actual (y también explorar …) • Aprendizaje de refuerzo completo: políticas óptimas (como iteración de valor) • No conoces las transiciones T( s,a,s ‘). • No sabes las recompensas R( s,a,s ‘). • Tú eliges las acciones ahora. • Objetivo: conocer la política/los valores óptimos. • En este caso: • ¡El programa toma decisiones! • Compensación fundamental: exploración frente a explotación. • ¡Esto NO es una planificación fuera de línea! De hecho, tomas acciones en el mundo y descubres lo que sucede.

Propiedades de Q-Learning • Resultado sorprendente: Q-learning converge en una política óptima, ¡incluso si está actuando de manera subóptima ! • Esto se llama aprendizaje fuera de la política. • Advertencias: • Tienes que explorar lo suficiente • Tienes que eventualmente hacer la tasa de aprendizaje lo suficientemente pequeña • … pero no lo disminuyas demasiado rápido • Básicamente, en el límite, no importa cómo seleccione las acciones

Aprendizaje por refuerzo activo

actuar de acuerdo

explora!

Aprendizaje basado en modelos Política de entrada p con política Y también

la

óptima actual

Exploración vs.

Explotación

¿Cómo explorar? • Varios esquemas para forzar la exploración • Más simple: acciones aleatorias ( e voraz) • Cada paso de tiempo, lanza una moneda • Con (pequeña) probabilidad e, actuar al azar • Con (gran) probabilidad 1 e, actuar sobre la política actual • ¿Problemas con acciones aleatorias? • Eventualmente exploras el espacio, pero sigues dando vueltas una vez que terminas de aprender. • Una solución: reducir e con el tiempo • Otra solución: funciones de exploración

Mejor idea: explorar áreas cuya maldad no esta (todavía) establecido, eventualmente dejar de explorar

Funciones de exploración

Toma un valor estimado u y un recuento de visitas n, y devuelve una utilidad optimista, por ejemplo, Nota: ¡esto propaga la "bonificación" a los estados que también conducen estados desconocidos!

• ¡Incluso si aprende la política óptima, aún comete errores en el camino! • El arrepentimiento es una medida del costo total del error: la diferencia entre recompensas (esperadas), incluida la subóptima juventud y las recompensas óptimas (esperadas).

• Minimizar el arrepentimiento va más allá de aprender a ser óptimo: requiere un aprendizaje óptimo para ser óptimo.

• Ejemplo: la exploración aleatoria y las funciones de exploración terminan siendo óptimas, pero la exploración aleatoria tiene un mayor arrepentimiento

aproximadoQ-Learning

Generalizando a través de los estados • Q-Learning básico mantiene una tabla de todos los valores• ¡En situaciones realistas, no podemos aprender sobre cada estado! • Demasiados estados para visitarlos todos en entrenamiento • Demasiados estados para mantener las tablas memoria. • En su lugar, queremos generalizar: • Aprenda sobre una pequeña cantidad de estados de entrenamiento a partir de la • Generalizar esa experiencia a situaciones nuevas y similares. • Esta es una idea fundamental en el aprendizaje automático.

Ejemplo: Pacman Digamos experienciadescubrimosqueporqueesteestadoesmalo: En q-learning ingenuo, no sabemos nada sobre este estado: ¡O incluso este!

Representaciones basadas en características • Solución: describe un estado usando un vector de características (propiedades). • Las características son funciones de estados a números reales (a menudo 0/1) que capturan propiedades importantes del estado • Características de ejemplo: • Distancia al fantasma más cercano • Distancia al punto más cercano • número de fantasmas • 1 / (distancia al punto) 2 • ¿ Pacman está en un túnel? (0/1) • …… etc. • ¿Es el estado exacto en esta diapositiva? • También puede describir un estado q (s, a) concaracterísticas (p. ej., la acción acerca a Pacman a lacomida)

Funciones de valor lineal

Resumen: MDP y RL MDP conocido: solución fuera de línea Meta Calcular V*, Q*, p * Evaluar una política fija p MDP desconocido: basado en modelos MDP desconocido: sin modelo Meta Calcule V*, Q*, p * Evaluar una politica fija p Técnica ValueQ-learningLearning Técnica Valor/iteración de política Evaluación de políticas Técnica VI/PI en MDP aprox. PE en MDP aprox. Meta Calcule V*, Q*, p * Evaluar una politica fija p

Turn static files into dynamic content formats.

Create a flipbook