8 - El tablero bidimensional estocástico: entorno y reglas del juego

Lección 8 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior vimos cómo construir el Proceso de Decisión de Markov de un entorno sencillo: un tablero unidimensional estocástico.

En esta lección vamos a comenzar a ver un ejemplo más elaborado: un pequeño juego con un tablero bidimensional, también estocástico. En particular veremos los detalles de este entorno y las reglas del juego.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El entorno y las reglas del juego

En este tercer ejemplo de elaboración de Procesos de Decisión de Markov consideraremos un tablero con un total de 16 casillas, distribuidas en 4 filas y 4 columnas.

El objetivo del juego será similar al de los casos anteriores: el agente deberá ir del “inicio” (casilla 1) a la “meta” (casilla 15) evitando caer en el camino en las casillas “hueco”.

Si el agente cae en un “hueco” será el fin del juego y deberá intentarlo una vez más. La recompensa será +1 si el agente logra llegar a la “meta” y 0 en cualquier otro caso.

La diferencia en este caso es que el agente podrá ejecutar cuatro tipos de acciones o movimientos (arriba, abajo, izquierda y derecha) y además habrá más trampas o “huecos” en el tablero (un total de 4, en las casillas 5, 7, 11 y 12).

En este caso tendremos episodios: la secuencia de decisiones que toma el agente para ir del “inicio” a la “meta”. Y al inicio de cada episodio el agente estará ubicado precisamente en la celda “inicio”.

El componente estocástico

Al igual que en el ejemplo anterior, en este caso también agregaremos un componente aleatorio a las acciones que puede ejecutar el agente.

En particular, si el agente decide moverse en una dirección en particular lo hará con una probabilidad del 33.3%, la probabilidad restante (66.6%) estará dividida equitativamente en las direcciones ortogonales.

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Perfecto, ya hemos visto los detalles de nuestro entorno y el componente estocástico que tendrán las acciones que puede ejecutar el agente.

Por tratarse de una interacción entorno-agente más compleja, en las siguientes lecciones desglosaremos cada uno de los elementos que harán parte de este Proceso de Decisión de Markov.

Así que en la próxima lección hablaremos inicialmente de los estados y de un concepto muy importante en la construcción de este proceso: la propiedad de Markov.

Ver todas las lecciones de este curso