17 - La función acción-valor

Lección 17 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior vimos el segundo elemento fundamental del agente, la función estado-valor que le permite cuantificar la bondad de un estado.

En esta lección veremos otra alternativa, la función acción-valor, el tercer elemento esencial del agente y que como veremos permite determinar el valor de tomar una acción partiendo de un estado en particular.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

¿Cuál acción es mejor?

Para entender la utilidad de la función acción-valor, volvamos al ejemplo del tablero bidimensional y de dos posibles políticas, y enfoquémonos en un estado en particular: el estado número 9.

En la política de la izquierda , y en el estado 9, la acción a seguir es el movimiento a la derecha, mientras que en la política de la derecha la acción es el movimiento hacia abajo. ¿Cuál de estas dos acciones es mejor?

Pues para cuantificarlas se usa la función acción-valor.

La función acción-valor en detalle

Recordemos que la función estado-valor usa precisamente el retorno para cuantificar la bondad de un estado. Y en particular recordemos que mide el retorno esperado por parte del agente cuando se encuentra en el estado $s$ y sigue la política $\pi$.

De forma muy similar la función acción-valor, que también se conoce como la “función Q”, usa como base el retorno.

En particular esta función calcula el retorno esperado que obtendría el agente al tomar la acción $a$ estando en el estado $s$ y siguiendo la política $\pi$.

Función acción-valor: notación matemática

Y todo lo anterior lo podemos expresar de forma compacta a través de la siguiente ecuación:

$q_{\pi}(s,a)=\mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty}\lambda ^k R_{t+k+1}|S_t = s, A_t = a \right]$

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Muy bien, con lo que acabamos de ver ya tenemos definidos los tres elementos que constituyen un agente en un problema de Aprendizaje por Refuerzo: la política, la función estado-valor y la función acción-valor.

En la siguiente lección, que será la última del curso, hablaremos de las Ecuaciones de Bellman, que se derivan de las ecuaciones de las funciones estado-valor y acción-valor, y que son la base de todos los algoritmos clásicos para la solución de problemas de Aprendizaje por Refuerzo que veremos en los próximos cursos.

Ver todas las lecciones de este curso