10 - El tablero bidimensional estocástico: las acciones

Lección 10 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior vimos en detalle los estados de nuestro tablero bidimensional estocástico, y hablamos también de un concepto muy importante como lo era la Propiedad de Markov.

En esta lección continuaremos construyendo el Proceso de Decisión de Markov para este juego, y en particular hablaremos de las acciones y de cómo el espacio de acciones puede tener diferentes características dependiendo del problema que vayamos a resolver.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Las acciones en nuestro juego

Recordemos que en nuestro juego las acciones corresponden a los movimientos que podrá ejecutar el agente, y que en este caso serán cuatro en total: arriba, abajo, izquierda y derecha.

Así que tendremos un espacio de acciones de tamaño cuatro: $A_0$ (izquierda), $A_1$ (abajo), $A_2$ (derecha) y $A_3$ (arriba). Estas cuatro acciones estarán disponibles en cada uno de los estados. Tendremos entonces un espacio de acciones finito y discreto, y con una sola variable por cada acción: el movimiento a ejecutar.

Aunque en el primer video de este ejemplo, cuando hablamos del entorno y las reglas del juego, mencionamos un componente estocástico para estas acciones, este lo dejaremos pendiente por el momento y en la siguiente lección hablaremos en detalle cuando abordemos el tema de la [función de transición].

Otros tipos de acciones

Como acabamos de ver, en nuestro juego tendremos un espacio de acciones finito y discreto (sólo 4 acciones) y una sola variable por cada acción (equivalente a un movimiento). Y este número de acciones es constante para todos los estados.

Pero, así como lo vimos en el video anterior cuando hablamos de espacios de estados continuos e infinitos, en casos reales podremos tener espacios de acciones continuos e infinitos e incluso con múltiples variables por cada acción, o con un número variable de acciones por cada estado.

Por ejemplo, el caso del vehículo autónomo es un ejemplo de un espacio de acción continuo e infinito y en este caso también podremos tener múltiples variables por cada acción. Por ejemplo, si la acción es girar el agente deberá no sólo girar el volante en una cierta dirección, sino también frenar y posteriormente acelerar a una velocidad determinada para poder realizar el giro correctamente: esta acción contendrá entonces 3 variables (girar volante, frenar, acelerar).

Pero si por ejemplo la acción es cambiar de carril, en este caso probablemente sólo se tendrán dos variables: girar el volante y acelerar.

Es importante que tengamos en cuenta entonces que los espacios de acciones (así como los espacios de estados) podrán ser discretos o continuos, finitos o infinitos y que dependiendo de esto se tendrán a disposición diferentes métodos para lograr entrenar los agentes, como lo veremos en cursos posteriores.

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien, ya repasamos las acciones que tendremos a disposición en nuestro juego, y acá lo importante es tener en cuenta que el espacio de acciones será discreto y finito, pero en otras aplicaciones podremos tener espacios continuos e infinitos o espacios que combinen estas características.

En la siguiente lección veremos entonces el componente estocástico de este tablero bidimensional, pues precisamente construiremos la función de transición y las recompensas para este juego.

Ver todas las lecciones de este curso