1 - Introducción a los algoritmos clásicos del Aprendizaje por Refuerzo

Lección 1 del curso Aprendizaje por Refuerzo Nivel Intermedio.

Introducción

En esta primera lección del curso haremos un repaso de los conceptos esenciales del aprendizaje por refuerzo vistos en el curso anterior: es decir que hablaremos de los elementos de un sistema de aprendizaje por refuerzo, de los procesos de decisión de Markov, del agente y de las Ecuaciones de Bellman.

Luego introduciremos algunos conceptos fundamentales, como los problemas basados en modelos y libres de modelos, y los problemas de predicción y de control, lo que nos permitirá cerrar la lección con un panorama de los algoritmos clásicos de Aprendizaje por Refuerzo que veremos en detalle a lo largo del curso, y su relación con estos conceptos fundamentales.

Video

En el canal de YouTube puedes ver el video completo de esta primera lección:

El problema a resolver en el Aprendizaje por Refuerzo

Recordemos, según lo visto en el curso anterior, que son esencialmente dos los componentes de un sistema de Aprendizaje por Refuerzo: el agente y el entorno, los cuales se encuentran en constante interacción.

Como resultado de esta interacción el agente recibe señales del entorno, llamadas estado y recompensa y dependiendo de estos valores dicho agente ejecuta una acción siguiendo las indicaciones de la política que es como el cerebro del agente encargado de la toma de decisiones.

Así que, en este contexto, un problema de Aprendizaje por Refuerzo equivale a lograr que el agente encuentre una secuencia de acciones que maximice el retorno (es decir la suma de las recompensas obtenidas durante su interacción con el entorno).

Los Procesos de Decisión de Markov

Y recordemos además que un Proceso de Decisión de Markov es simplemente una herramienta matemática para representar de manera compacta todos los elementos que hacen parte de nuestro problema de Aprendizaje por Refuerzo. Así, los elementos de este proceso son:

La política y las funciones valor

Como mencionamos anteriormente, la política del agente es como su cerebro, que le permite encontrar la mejor acción a tomar partiendo de un estado en particular con el objetivo de maximizar el retorno.

Por otra parte, tenemos dos tipos de funciones valor, que permiten cuantificar qué tan bueno es un estado (para el caso de la función estado-valor) o qué tan buena es una acción (para el caso de la función acción-valor).

De hecho, podemos combinar estas dos funciones en lo que se conoce como la función acción-ventaja, que es simplemente el resultado de restar de la función acción-valor la función estado-valor, y que permite cuantificar la ventaja de tomar una acción definida por la política en lugar de cualquier otra acción

Las Ecuaciones de Bellman

Finalmente, para terminar este repaso, tenemos las Ecuaciones de Bellman que simplemente son una representación matemática alternativa de las funciones valor, pero con un elemento importante, y es que permiten descomponer dicho valor en dos elementos: uno que contiene la recompensa inmediata y otro con los valores futuros pero con descuento.

¿Con modelos o sin modelos?

Ahora si introduzcamos un primer par de conceptos esenciales, pues dependiendo de estos podremos tener diferentes algoritmos para resolver un problema de Aprendizaje por Refuerzo.

Para entender estos dos tipos de algoritmos (model-based - basado en modelos - y model-free - libre de modelos) volvamos a la notación compacta de un proceso de decisión de Markov, que contiene el espacio de estados, el espacio de acciones, la función de recompensa, la función de transición y el descuento.

El modelo del entorno hace referencia a la función de transición y a la función de recompensa. Con estas dos tenemos toda la información necesaria para determinar cuál será el nuevo estado del entorno (partiendo de un par estado-acción iniciales) y cuál será la respectiva recompensa obtenida por el agente.

Teniendo clara esta definición, ahora sí hablemos de los dos grandes grupos de algoritmos:

En la práctica encontraremos más problemas libres de modelos (que involucran aprendizaje) que basados en modelos (que involucran planeación).

¿Predicción o control?

También podemos clasificar los problemas y algoritmos de Aprendizaje por Refuerzo en dos categorías dependiendo del objetivo:

Clasificación de los algoritmos clásicos de Aprendizaje por Refuerzo

Teniendo en cuenta los conceptos que acabamos de ver, podemos definir las siguientes categorías de algoritmos, que serán precisamente los que abordaremos a lo largo de este curso:

Conclusión

Muy bien, acabamos de ver un panorama de los principales algoritmos clásicos para el abordaje de problemas de Aprendizaje por Refuerzo, que se dividen en tres grandes familias: la programación dinámica, Monte Carlo y las Diferencias Temporales, y cada una de estas familias tiene variantes que pueden ser usadas en problemas de predicción o de control, así como en problemas donde tengamos o no la información del modelo del entorno.

Así que con esta introducción ya estamos listos para comenzar a ver en detalle cada una de estas familias, entonces en la primera sección del curso nos enfocaremos en los algoritmos de Programación Dinámica, y en particular en la próxima lección veremos el primero de estos algoritmos de predicción para la evaluación de la política.

Ver todas las lecciones de este curso