12 - El tablero bidimensional estocástico: el horizonte

Lección 12 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior, cuando hablamos de la función de transición y la recompensa de nuestro tablero bidimensional, terminamos de construir el Proceso de Decisión de Markov de este juego, pero no incluimos de forma explícita un elemento importantísimo: el tiempo.

Y el tiempo resulta fundamental, porque por ejemplo en nuestro juego del tablero bidimensional nos interesa que el agente aprenda a llegar a la meta en el menor tiempo posible, es decir usando la menor cantidad de movidas posible.

Así que en esta lección introduciremos explícitamente la variable tiempo en nuestro Proceso de Decisión de Markov, a través de un concepto muy importante que se conoce como el horizonte.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

¿Qué es el horizonte?

Partiendo de nuestro ejemplo del tablero bidimensional, podemos ver que para llegar del inicio a la meta el agente lo puede hacer de diferentes formas, y en cada caso requerira diferente número de jugadas o movidas, es decir requerirá más o menos tiempo dependiendo de la ruta tomada.

Así que, partiendo de este ejemplo, podemos definir el horizonte de forma simple como la duración de la interacción del agente con el entorno.

Tipos de horizonte

Dependiendo de la duración de esta interacción, es decir del horizonte, podemos tener tres tipos de problemas: de horizonte finito, de horizonte infinito y de horizonte indefinido. Veamos cada uno de ellos a través de algunos ejemplos:

Problemas de horizonte finito

En este caso el horizonte tiene un número fijo de pasos (si medimos el tiempo en unidades discretas) o dura una cantidad de tiempo finita (si el tiempo se mide en unidades continuas)

Problemas de horizonte infinito e indefinido

Estos problemas son el extremo opuesto al horizonte finito. En este caso el horizonte tiene o un número infinito de pasos (en el caso discreto) o dura una cantidad infinita de tiempo (en el caso continuo).

Pero además en el caso del tablero bidimensional existe la posibilidad de que el agente termine atrapado en un hueco o que tarde o temprano llegue a la meta, lo que hará que se tenga un número finito de movidas. Pero como no se sabe con antelación cuál será este número, en este caso decimos que tenemos un problema de horizonte indefinido, que es una sub-clase de los problemas de horizonte infinito.

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Perfecto, ya hemos incluido la variable tiempo en nuestro Proceso de Decisión de Markov, a través del concepto de horizonte, que puede ser finito, infinito o indefinido.

En la siguiente lección vamos a combinar esta idea del horizonte con el concepto del descuento, que nos permitirá introducir un criterio de toma de decisiones de manera óptima por parte del agente.

Ver todas las lecciones de este curso