7 - Procesos de decisión de markov: el tablero unidimensional estocástico

Lección 7 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior vimos paso a paso cómo construir un Proceso de Decisión de Markov para un simple tablero unidimensional. En este caso añadiremos un elemento que en problemas reales casi siempre estará presente: el componente de aleatoriedad.

El término “estocástico” se usa para indicar que nuestro problema tiene un componente de aleatoriedad. Así que en esta lección veremos cómo construir un Proceso de Decisión de Markov para un tablero unidimensional, como el de la lección anterior, pero estocástico.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Lo que no cambia: los estados y las acciones

Hablemos primero de los elementos que no cambian con respecto al ejemplo visto en la lección anterior.

Seguiremos teniendo un tablero con tres casillas correspondientes a los mismos tres estados originales: $S_0$ (hueco), $S_1$ (inicio) y $S_2$ (meta). Y el agente podrá ejecutar dos posibles acciones: $A_0$ (desplazamiento a la izquierda) y $A_1$ (desplazamiento a la derecha).

El elemento estocástico: la función de transición

En el ejemplo inicial de la lección anterior vimos que las probabilidades de desplazamiento, una vez ejecutada cada acción, eran del 100%. Es decir teníamos una función de transición determinística.

En aplicaciones reales la mayoría de las veces no tendremos una certeza total. Por ejemplo, una pinza robótica entrenada para agarrar objetos, podrá ejecutar la pinza correctamente la mayor parte de las veces, pero en ocasiones la superficie podrá tener vibraciones, o la pieza podrá estar húmeda y resbalosa, y a veces no logrará realizar el agarre de la pieza.

Así que en todos los problemas reales siempre habrá un componente de incertidumbre que hace que estos problemas y las decisiones a tomar tengan un componente estocástico.

Entonces, volviendo a nuestro ejemplo, para emular esta incertidumbre supondremos lo siguiente: el 80% de las veces el agente se moverá en la dirección deseada, pero en un 20% de estas ocasiones lo hará en la dirección opuesta.

Esto quiere decir que si por ejemplo se encuentra en el estado $S_1$ y la acción a ejecutar es $A_0$ (desplazamiento a la izquierda), en 8 de cada 10 intentos este movimiento se hará efectivamente a la izquierda, pero en 2 de cada 10 se hará a la derecha.

Esta será nuestra tabla con todas las posibles transiciones:

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El grafo del proceso

Al igual que lo hicimos en el ejemplo inicial de la lección anterior, en este caso también podemos dibujar el grafo del Proceso de Decisión de Markov. En este caso se tendrán esencialmente los mismos elementos, con la diferencia de que ahora se agregarán algunas flechas para los casos en los cuales se tenga una función de transición estocástica:

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Muy bien. Ya hemos logrado construir nuestro segundo proceso de decisión de Markov, incluyendo funciones de transición estocásticas, un comportamiento mucho más cercano a lo que ocurre en la realidad.

A partir de la siguiente lección comenzaremos a construir un proceso más complejo, en donde tendremos a disposición más estados y acciones, usando precisamente un tablero bidimensional estocástico.

Ver todas las lecciones de este curso