14 - El objetivo del Agente

Lección 14 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior hablamos del descuento en un Problema de Aprendizaje por Refuerzo, y con ello culminamos todo lo relacionado con los Procesos de Decisión de Markov.

Así que ya sabemos qué es y cómo formular el Proceso de Decisión de Markov para diferentes problemas de Aprendizaje por Refuerzo, y en esta última sección del curso nos enfocaremos en el elemento encargado de la toma de decisiones: el Agente.

En particular hablaremos de los tres elementos fundamentales que conforman el agente y culminaremos con las ecuaciones de Bellman, que serán el punto de partida de los algoritmos para el entrenamiento del agente que veremos en el próximo curso.

Y en esta lección específicamente tomaremos lo aprendido hasta el momento para reformular el objetivo del agente en un problema de Aprendizaje por Refuerzo.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

La formulación del problema: los Procesos de Decisión de Markov

Hasta este punto, y con los ejemplos que analizamos de los tableros unidimensional y bidimensional, aprendimos a formular un problema de Aprendizaje por Refuerzo usando los Procesos de Decisión de Markov.

Recordemos que este proceso define las reglas de juego para la interacción del agente con el entorno, específicamente en términos de X elementos: el espacio de estados (S), el espacio de acciones (A), la función de transición y la recompensa, el horizonte y el descuento.

Y todas estas herramientas simplemente nos permiten escribir de forma compacta todos los elementos que hacen parte del problema de Aprendizaje por Refuerzo, pero no nos permiten resolverlo.

El objetivo del agente

Y el agente es el protagonista principal en la solución del problema, y será el elemento en el cual nos vamos a enfocar en adelante.

Para entender el objetivo del agente, recordemos la definición que dimos sobre el Aprendizaje por Refuerzo en una lección anterior: “lograr que un agente aprenda a tomar decisiones de manera óptima”

Pero además recordemos que en las últimas lecciones hemos venido hablando del retorno y del descuento, y de cómo estos nos permiten introducir un criterio cuantificable que nos permite comparar diferentes procesos de toma de decisiones y cuál puede resultar óptimo.

Teniendo estos dos elementos en cuenta, podemos definir el objetivo del agente en un problema de Aprendizaje por Refuerzo como: “encontrar una secuencia de acciones que maximize el retorno”.

El reto de la toma de decisiones de manera óptima

Si volvemos al juego del tablero bidimensional, estaríamos inclinados entonces a pensar que resulta sencillo definir la mejor ruta. Es decir, el agente podría trazar un “plan” que lo lleve del inicio a la meta en el menor número de movidas, logrando obtener el mejor retorno posible.

Pero este plan tiene un problema de fondo: no está contemplando el componente estocástico del proceso, que hará que muy probablemente que el agente no logre ejecutar esta ruta ideal.

Así que no basta con un plan sencillo: el agente realmente debe aprender a planear para cada posible estado, para cada posible escenario, teniendo en cuenta el componente estocástico del proceso. Es decir debe crear un “plan maestro”, y este plan es un elemento esencial del agente y se conoce como la política, que será el tema de la próxima lección.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Ya tenemos una definición más precisa del objetivo del agente en un problema de Aprendizaje por Refuerzo, que consiste en elegir una serie de acciones que maximice el retorno.

Pero esta secuencia de acciones generalmente no es trivial, porque recordemos que usualmente tendremos un componente estocástico en nuestro Proceso de Decisión de Markov.

La política, que será el tema de la próxima lección, es precisamente como el “plan maestro” que permitirá al agente tomar decisiones dentro de este proceso estocástico.

Ver todas las lecciones de este curso