15 - La política

Lección 15 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior vimos que el objetivo del agente es que aprenda a tomar decisiones buscando obtener el mayor retorno posible, pero este problema se complica cuando agregamos un componente estocástico, como ocurre en la mayor parte de las aplicaciones reales.

En esta lección hablaremos de la política, que permite al agente tomar decisiones en todos los posibles escenarios y que es a la vez uno de los tres elementos fundamentales del agente.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Repaso: la interacción entorno-agente y los Procesos de Decisión de Markov

En la cuarta lección del curso hablamos de la forma como el agente y el entorno interactúan en un problema de Aprendizaje por Refuerzo. Y vimos específicamente que el agente recibe la recompensa y el estado generados por el entorno y con base en esta información genera una nueva acción.

Pues vamos a comenzar a ver qué es lo que hay dentro del agente y uno de sus elementos fundamentales es precisamente la política.

La política: de estados a acciones

La política del agente es básicamente una función que le permite al agente mapear un estado en una acción. Es decir que cuando el agente recibe como entrada un estado, la política le permite determinar cuál es la acción más adecuada que debe tomar en un instante de tiempo dado. Esta política se denota usualmente con la letra $\pi$.

Como veremos en detalle en los próximos cursos, lo que buscan los diferentes métodos o algoritmos del Aprendizaje por Refuerzo es entrenar al agente, lo que equivale a encontrar la política a medida que éste interactúa con su entorno.

Políticas determinísticas

Cuando el Proceso de Decisión de Markov es determinístico, es decir cuando no hay ningún componente aleatorio en las acciones, tenemos una política determinística.

Esta política determinística la denotaremos como $a=\pi(s)$: dado un estado $s$, la política nos indicará (con una certeza total, por ser determinística) cuál es la acción a ejecutar.

Sin embargo, no es común implementar políticas determinísticas ya que en casos reales usualmente se tiene un componente estocástico en el Proceso de Decisión de Markov.

Políticas estocásticas

En este caso tenemos que hacer una distinción importante. Para obtener la política el agente no busca simplemente maximizar el retorno, porque dado el componente estocástico puede haber diferentes secuencias de acciones que permitan al agente cumplir su objetivo.

Además, como tenemos precisamente un entorno estocástico, la política que se obtenga no indicará con una total certeza la siguiente acción que debe ejecutar el agente. En su lugar nos indicará la probabilidad de ejecutar una acción en particular. Así que usaremos la notación de probabilidades condicionales para representar matemáticamente esta política:

$\pi(a|s)=P[A_t=a|S_t=s]$ que se lee como: “la política ($\pi(a|s)$) es la probabilidad de ejecutar en el instante de tiempo t la acción a estando en el estado s". Y recordemos que este valor (la probabilidad) estará en el rango de 0 a 1.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien, ya definimos la política que es como el cerebro del agente encargado de la toma de decisiones. Pero como vimos, esta usa únicamente el estado para predecir la acción a ejecutar, pero no nos permite cuantificar si el nuevo estado o la acción tomada son buenos o si hay mejores opciones.

Así que en la próxima lección hablaremos de la función estado-valor, el segundo elemento fundamental el agente y que será una herramienta que permitirá cuantificar el valor de un estado.

Ver todas las lecciones de este curso