18 - Las Ecuaciones de Bellman

Lección 18 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En las lecciones anteriores hablamos del significado de las funciones estado-valor y acción-valor, y vimos sus correspondientes definiciones matemáticas.

En esta última lección del curso hablaremos de las Ecuaciones de Bellman, que esencialmente son una forma alternativa de representar matemáticamente estas funciones y que servirán como punto de partida para los algoritmos clásicos de Aprendizaje por Refuerzo que veremos en el próximo curso.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Ecuaciones para las funciones estado-valor y acción-valor

En esta lección nos enfocaremos en el significado mismo y la importancia de las ecuaciones de Bellman, más que en su deducción. En todo caso esta deducción matemática está disponible en el archivo descargable que acompaña el video de esta lección.

Partamos de las ecuaciones que definen las funciones estado-valor y acción-valor:

$v_{\pi}(s)=\mathbb{E}_{\pi}\left[G_t|S_t = s \right], \text{correspondiente a la función estado-valor}$

$q_{\pi}(s,a)=\mathbb{E}_{\pi}\left[G_t|S_t = s, A_t = a \right], \text{correspondiente a la función acción-valor}$

Observemos que estas dos expresiones incluyen de manera implícita la política ($\pi$) y los diferentes elementos del entorno: el estado ($s$), el retorno ($G_t$) y las acciones ($a$). Sin embargo en la práctica no resultan muy útiles, pues no permiten calcular de manera explícita los valores asociados a cada una de estas funciones (es decir $v_{\pi}(s)$ y $q_{\pi}(s,a)$).

Las ecuaciones de Bellman permiten expresar estas funciones estado-valor y acción-valor explícitamente en términos de la política y de las variables del entorno, y esto resulta fundamental para poderlas resolver a través de diversos algoritmos (que serán el tema del próximo curso). Y esta es precisamente la importancia de estas ecuaciones.

Así que a continuación veremos estas ecuaciones e interpretaremos su significado.

Ecuación de Bellman para la función estado-valor

Esta ecuación es la siguiente:

$v_{\pi}(s) = \sum_a \pi(a|s) \sum_{s’,r} p(s’,r|s,a) \big[r + \gamma v_{\pi}(s’)\big]$

Analicemos como estos términos interactúan en el cálculo del valor del estado en esta Ecuación de Bellman.

En primer lugar vemos la presencia tanto del estado actual ($s$) como de los estados sucesores ($s’$). Así que lo primero que podemos decir acerca de esta ecuación de Bellman es que permite expresar la relación existente entre el valor de este estado actual y los valores de los estados sucesores.

Lo segundo que observamos es que contiene tres sumatorias (sobre las diferentes acciones $a$, sobre los diferentes estados $s’$ y sobre las diferentes recompensas $r$) y que además contiene el factor de descuento ($\gamma$). Así que de manera explícita la Ecuación de Bellman incluye todos los elementos del Proceso de Decisión de Markov que describe el problema.

Veamos entonces cómo interpretar el significado y utilidad de esta ecuación.

Interpretación de la Ecuación de Bellman para la función estado-valor

Cuando el agente toma una acción llega a un nuevo estado $s’$ obteniendo una recompensa $r$. ¿Cómo saber entonces el valor del estado?

Pues retomando la ecuación de Bellman podemos decir que lo que nos indica esta ecuación es que se deben analizar una a una todas las posibles rutas desde $s$ a cada uno de los posibles nuevos estados $s’$. El retorno obtenido en cada ruta será la suma del retorno obtenido en la transición $s \rightarrow s’$ (es decir $r$) y el valor con descuento esperado para el siguiente estado (es decir $\gamma v_{\pi}(s’)$), pero como habrá unas rutas más probables que otras, este retorno se tiene que ponderar por la probabilidad de tomar dicha acción y de obtener este retorno (es decir por el factor $\pi(a|s)p(s’,r|s,a)$.

Si hacemos este cálculo ($\pi(a|s)p(s’,r|s,a)[r+\gamma v_{\pi}(s’)]$ para cada una de las posibles rutas, sumamos todos los resultados ($\sum_a$, $\sum_{s’}$ y $\sum_r$) tendremos el valor del estado de donde partió el agente (es decir $v_{\pi}(s)$).

Ecuación de Bellman para la función acción-valor

La deducción matemática para este caso es muy similar a la de la función estado-valor, y se encuentra en el archivo descargable que complementa esta lección.

Al hacer esta deducción llegamos a la siguiente Ecuación de Bellman para la función acción-valor:

$q_{\pi}(s,a)=\sum_{s’,r}p(s’,r|s,a)[r+\gamma v_{\pi}(s’)]$

y vemos que se asemeja mucho a la Ecuación de Bellman para la función estado-valor vista anteriormente. Sin embargo en este caso la expresión es más sencilla, pues desaparece el término asociado a la política ($\sum_{a}\pi(s|a)$) puesto que en este caso de la función acción-valor ya estamos especificando tanto el estado como la misma acción tomada por el agente.

Y la interpretación es muy similar: para un estado y acción particulares ($s,a$) analizamos todas las posibles rutas de transición hacia todos los posibles estados $s’$ y al sumar todas las contribuciones de cada una de las rutas tendremos entonces el valor esperado para la acción $a$ (es decir $q_{\pi}(s,a)$)

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien acabamos de ver que las ecuaciones de Bellman nos muestran de manera explícita cómo calcular estas funciones valor teniendo en cuenta todos los elementos que hacen parte de nuestro problema de Aprendizaje por Refuerzo, es decir en términos de las variables del Proceso de Decisión de Markov (las acciones, los estados, el retorno y la función de transición), así como de la política misma del agente.

Estas ecuaciones son fundamentales para resolver un problema de Aprendizaje por Refuerzo, porque como veremos en el próximo curso de Aprendizaje por Refuerzo Nivel Intermedio los algoritmos clásicos que se usan para entrenar el agente buscan calcular el valor de un estado o de una acción partiendo precisamente de las expresiones que acabamos de ver para estas Ecuaciones de Bellman.

Ver todas las lecciones de este curso