11 - El tablero bidimensional estocástico: función de transición y recompensa

Lección 11 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior vimos las acciones que puede ejecutar el agente en nuestro tablero bidimensional, pero no tuvimos en cuenta el componente estocástico de estas.

Así que en esta lección hablaremos en detalle de este componente, y veremos entonces no sólo la función de transición sino además las recompensas asociadas a cada acción.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Tabla de transición

Como lo vimos en el caso del [tablero unidimensional estocástico], resulta más sencillo ver todas las posibles transiciones de estado a través de una tabla.

Sin embargo, en este caso del tablero bidimensional tenemos muchos más estados (16 en lugar de 3) y muchas más acciones (4 en lugar de 2), así que la tabla de transición será mucho más extensa (de hecho tendrá un total de 152 filas).

Así que no obtendremos una a una las filas de la tabla, sino sólo algunas de ellas. En particular nos enfocaremos en el estado “inicio” (con lo cual podremos ver el componente estocástico), en un estado terminal (es decir un hueco, donde no habrá componente estocástico) y en el único estado que permite llegar a la meta (el estado 14) y obtener una recompensa de +1.

Además recordemos que las acciones son: $A_0$ (izquierda), $A_1$ (abajo), $A_2$ (derecha), $A_3$ (arriba). Y recordemos que el componente estocástico de las acciones es: el agente tendrá un 33% de probabilidad de moverse en la dirección esperada, y un 66% en las direcciones ortogonales a este movimiento.

Veamos entonces cómo construir las tablas y los grafos de transición para cada uno de estos casos:

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien, hemos visto que para este ejemplo particular tendremos una tabla de transición mucho más compleja que el primer ejemplo del tablero unidimensional, pues en este caso contendrá un total de 152 filas.

De hecho el mismo grafo resulta mucho más complejo y no es tan fácil de entender debido a que tenemos muchos más estados y acciones con un componente estocástico, y por tanto tendremos múltiples transiciones de estado. Así que para problemas más complejos no resulta muy útil el uso de este grafo.

En la próxima lección seguiremos profundizando en este ejemplo y en particular veremos un nuevo concepto conocido como el horizonte que guarda relación directa con la duración que puede tener la interacción del agente con el entorno.

Ver todas las lecciones de este curso