9 - El tablero bidimensional estocástico: los estados y la propiedad de Markov

Lección 9 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior planteamos las características del entorno y las reglas de juego del tablero bidimensional estocástico, un problema que nos permitirá ver en detalle diferentes conceptos asociados a la construcción de los Procesos de Decisión de Markov.

En esta lección veremos en detalle el primer elemento: los estados. Además, hablaremos de la Propiedad de Markov, un concepto importante que en adelante será la condición que asumiremos para la solución de cualquier problema de Aprendizaje por Refuerzo.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El espacio de estados de nuestro juego

Si volvemos a la configuración de nuestro tablero bidimensional, veremos que está conformado por un total de 16 casillas. Para simplificar las cosas podemos denotar cada estado con el número de la casilla correspondiente. Así, nuestro espacio de estados será de tamaño 16: $S = {S_0, S_1, S_2, …, S_{15}}$.

En este caso podemos decir que nuestro espacio de estados es discreto y finito.

Otros posibles espacios de estado

Pero también pudimos haber definido un espacio de estados más complejo que el anterior. Por ejemplo, pudimos haber definido un sistema de coordenadas bidimensional sobre nuestra grilla, y pudimos haber asignado un par de coordenadas a cada posición del agente dentro del tablero.

En este caso cada coordenada sería un par de valores continuos (por ejemplo $x=0.35, y=0.27$) y como el agente podría estar en principio en cualquier ubicación del tablero, se tendría entonces un espacio de estados continuo e infinito.

Aunque en este ejemplo particular del tablero bidimensional no es necesario usar este espacio continuo e infinito (basta con el espacio discreto y finito de 16 estados), sí es importante tener en cuenta que en problemas reales se podrán tener espacios de estado con estas características.

La Propiedad de Markov: intuición

La Propiedad de Markov es una condición que en adelante asumiremos válida para todos los problemas de Aprendizaje por Refuerzo que analizaremos. De hecho, toda la teoría del Aprendizaje por Refuerzo está construida alrededor de esta suposición.

Entendámosla a través de un ejemplo.

Volviendo a nuestro tablero bidimensional. Supongamos que en el instante de tiempo actual el agente se encuentra en el estado 2. Para saber cuáles serán los próximos estados (que en este caso particular podrían ser el estado 1, el 3 o el 6) basta con saber que en el instante de tiempo presente el agente está en el estado 2, pero no es necesario conocer el historial de estados visitados por el agente en instantes de tiempo anteriores. Es decir, para predecir el estado futuro basta con conocer el estado presente, pero de nada nos sirve saber que el agente estuvo anteriormente, por ejemplo, en el estado 1 o en el 3.

La idea de la Propiedad de Markov consiste en asumir que la configuración actual contiene toda la información necesaria para predecir el siguiente estado, como en el ejemplo que acabamos de ver.

La Propiedad de Markov: notación matemática

Y este concepto de la Propiedad de Markov lo podemos sintetizar a través de la siguiente ecuación:

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

que se lee básicamente como: la probabilidad de alcanzar el siguiente estado ($S_{t+1}$) dados el estado y la acción actuales ($S_t$,$A_t$) es lo mismo que si tuviéramos todo el historial de interacciones de estados-acciones ($S_t,A_t,S_{t-1},A{t-1},…$)

Es decir que en esencia el estado y la acción actuales ($S_t$,$A_t$) contienen toda la información histórica de las interacciones anteriores y son suficientes para predecir el nuevo estado.

Conclusión

Muy bien, acabamos de ver el espacio de estados discreto y finito que usaremos en este ejemplo, y acabamos de ver en qué consiste la Propiedad de Markov, que es una condición sobre la cual está construida toda la teoría del Aprendizaje por Refuerzo.

En la siguiente lección hablaremos en detalle de las acciones disponibles en este juego del tablero bidimensional, y de forma general hablaremos también de los diferentes tipos de acciones que podremos encontrar en diversos problemas del Aprendizaje por Refuerzo.

Ver todas las lecciones de este curso