16 - La función estado-valor

Lección 16 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior hablamos de un primer elemento fundamental del agente: la política. Sin embargo la política únicamente decide la siguiente acción a tomar, pero por si sola no permite cuantificar si el estado o la acción tomada realmente son buenas.

Así que la política requiere algo conocido como las funciones de valor, que permiten cuantificar la bondad de un estado o de una acción en particular. En esta lección hablaremos particularmente de la función estado-valor, que permite precisamente poner números a los diferentes estados alcanzados por el agente.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

¿Cómo comparar diferentes políticas?

Para entender la función estado-valor, supongamos un escenario específico en nuestro juego del tablero bidimensional estocástico.

Recordemos que la política es como el cerebro del agente, que le indica cuál acción a tomar. Y en el caso de nuestro juego esta política es estocástica: para cada estado contiene una distribución de probabilidades para las posibles acciones a ejecutar.

Supongamos que de alguna forma, que veremos en detalle en los próximos cursos, entrenamos nuestro agente de dos maneras diferentes, es decir que tenemos dos posibles políticas. ¿Cómo saber cuál de las dos políticas es mejor? Y tengamos en cuenta que nos interesa encontrar la mejor política, puesto que el objetivo del agente (como lo vimos en la lección anterior) es precisamente aprender a tomar decisiones de una manera óptima.

De alguna forma tenemos que cuantificar (es decir poner números) a cada una de ellas, idear una métrica que permita, con base en este número, decidir cuál de las dos es mejor.

La función estado-valor es precisamente una manera de cuantificar las bondades o limitaciones de una política en particular.

¿Qué se puede esperar partiendo de este estado?

Recordemos que la manera de medir qué tan buenas o malas son las decisiones tomadas por el agente es a través del retorno, y la función estado-valor usa precisamente esta métrica como base para esa cuantificación.

Pero como el entorno es estocástico, no resulta tan simple la forma de determinar la bondad de un estado en particular.

La función estado-valor se encarga precisamente de cuantificar precisamente la bondad de cualquier estado dada una política en particular.

El retorno “esperado”

Para cuantificar la bondad de un estado podemos usar precisamente el retorno: la suma de las recompensas que el agente obtiene al ejecutar una trayectoria en particular.

Sin embargo, para construir la función estado-valor debemos tener en cuenta dos aspectos:

  1. Que el agente no ejecutará una trayectoria arbitraria sino que ésta se encuentra definida por la política.
  2. Como el entorno es estocástico, ya hemos visto que las trayectorias bajo una política en particular no son únicas, pues las acciones se ejecutan siguiendo una distribución de probabilidades. Así que al calcular el retorno se deben tener en cuenta todas las posibles formas en que el entorno puede reaccionar a la política.

Así que en lugar de “retorno” usaremos el término “retorno esperado”, es decir el resultado de promediar todos los posibles retornos que se obtendrán tras analizar todas las posibles trayectorias.

El valor de un estado

Con la definición del retorno esperado que acabamos de dar, ya podemos definir el valor de un estado: el valor de un estado $s$ cuando se sigue una política $\pi$ es el retorno esperado si el agente partiera del estado $s$ y siguiera la trayectoria definida por la política $\pi$.

La función estado-valor

Y si calculamos el valor de cada estado para todos los posibles estados obtenemos precisamente la función estado-valor.

Esta función nos entregará el retorno esperado, siguiendo la política $\pi$, para cada uno de los estados que hacen parte de nuestro entorno. Es decir que la función nos permite precisamente cuantificar, poner un número, a cada uno de los estados, y nos permite definir así qué tan bueno o malo puede resultar un estado en particular en el proceso de toma de decisiones.

Función estado-valor: notación matemática

Para terminar, todo lo que hemos dicho con palabras lo podemos expresar matemáticamente de la siguiente forma:

$v_{\pi}(s)=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty}\lambda ^k R_{t+k+1}|S_t = s \right], \text{para todos los estados } s \text{ en } S$

que es la ecuación que define la función estado-valor.

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Perfecto, ya tenemos la función estado-valor, el segundo elemento fundamental del agente y que permite cuantificar qué tan bien o mal lo haría partiendo de un estado determinado y siguiendo una política en particular.

Pero esta función no es la única que puede usar el agente, de hecho también es posible cuantificar no sólo el estado sino también la acción tomada usando la función acción-valor, de la cual hablaremos en detalle precisamente en la próxima lección.

Ver todas las lecciones de este curso