6 - Procesos de Decisión de Markov: un tablero unidimensional

Lección 6 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior vimos una introducción a los Procesos de Decisión de Markov y vimos que básicamente era una representación matemática correspondiente al conjunto de los elementos que componen nuestro problema de aprendizaje por refuerzo.

En esta lección comenzaremos a profundizar en la construcción de diferentes tipos de Procesos de Decisión de Markov, y en este caso particular iniciaremos con un ejemplo muy sencillo: un agente que se desplaza en una grilla o tablero unidimensional.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El entorno: el tablero unidimensional

En adelante usaremos entornos que se asemejan a grillas o tableros, pues estas estructuras nos facilitarán entender todos los elementos a tener en cuenta en la construcción de los diferentes Procesos de Decisión de Markov.

A pesar de que se asemejan a pequeños juegos, estos entornos basados en tableros son la base para la construcción de entornos más complejos (como por ejemplo los usados en robótica o en videojuegos o en vehículos autónomos), con la diferencia de que en estos casos se tendrán muchos más estados y acciones, y probablemente la función de transición y de recompensa serán más complejos, pero los principios a aplicar serán los mismos.

Para este primer ejemplo asumiremos un tablero unidimensional, es decir que contendrá sólo una fila. Como veremos más adelante, esto limitará el movimiento del agente tan sólo a dos posibles direcciones: derecha o izquierda.

El espacio de estados

En este sencillo tablero unidimensional tendremos únicamente tres casillas o estados: la casilla hueco ($S_0$), la casilla de inicio ($S_1$) y la casilla correspondiente a la meta ($S_3$). Este será nuestro espacio de estados ($S$).

Asumiremos que el agente sólo podrá desplazarse si se encuentra en el estado inicial ($S_1$). Los estados $S_0$ (hueco) y $S_2$ (meta) serán estados terminales: si el agente está ubicado en estas casillas no podrá desplazarse en ninguna dirección.

El espacio de acciones

Como lo mencionamos anteriormente, en esta grilla unidimensional el agente podrá moverse sólo en dos direcciones (que corresponderán precisamente al espacio de acciones en este ejemplo): izquierda ($A_0$) y derecha ($A_1$).

La recompensa

En este caso la recompensa es muy sencilla: tendrá un valor igual a +1 sólo si el agente se mueve hasta la casilla “meta” (correspondiente al estado $S_2$). En los casos restantes la recompensa será 0 (o no habrá recompensa).

La función de transición

En este caso vamos a asumir un problema totalmente determinístico. Esto quiere decir que no habrá componente aleatorio alguno, así que la acción $A_0$ generará un movimiento a la izquierda con una probabilidad igual a 1, mientras que la acción $A_1$ generará un movimiento a la derecha también con una probabilidad igual a 1.

Teniendo esto en cuenta, junto con la recompensa y los espacios de estados y acciones descritos anteriormente, podemos resumir nuestra función de transición a través de la siguiente tabla:

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El grafo de este proceso

También podemos representar gráficamente los diferentes elementos de nuestro proceso a través de un grafo, que nos permite visualizar fácilmente todas las posibles situaciones que pueden ocurrir en esta interacción entorno-agente:

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien, acabamos de construir nuestro primer Proceso de Decisión de Markov. En este problema en particular pudimos ver que la tabla correspondiente a la función de transición, así como el grafo, contienen toda la información sobre los componentes de nuestro problema así como todas las posibles transiciones de estado que pueden existir.

Sin embargo en este caso asumimos un comportamiento totalmente determinístico, pues recordemos que cada acción ejecutada tenía un 100% de probabilidad de ocurrencia.

Así que en la siguiente lección analizaremos una versión modificada de este ejemplo, en donde veremos cómo construir el Proceso de Decisión de Markov de un tablero unidimensional estocástico.

Ver todas las lecciones de este curso