13 - El tablero bidimensional estocástico: el descuento

Febrero 8, 2022 por Miguel Sotaquirá

Lección 13 del curso Aprendizaje por Refuerzo Nivel Básico.

Tabla de contenido

Introducción

En la lección anterior hablamos del horizonte en un problema de Aprendizaje por Refuerzo, y vimos que nuestro tablero bidimensional tiene un horizonte indefinido: no existe un límite de jugadas a realizar, pero tarde o temprano la interacción culminará, bien sea porque el agente llegó a la meta o porque terminó atrapado en un hueco.

Y tal como lo analizamos en la lección anterior, existen diferentes trayectorias que permitirán al agente llegar a la meta, aunque algunas requerirán más movidas que otras. Y lo que nos interesa es que precisamente este agente aprenda a llegar a la meta en el menor número de movidas posible.

Así que en esta lección vamos a introducir el concepto del descuento, que permitirá que más adelante el agente “aprenda” a llegar a la meta de forma óptima.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Es mejor llegar a la meta lo más pronto posible

Para entender el concepto del descuento, analicemos dos posibles rutas que puede tomar el agente para llegar a la meta.

En el primer caso el agente requerirá 8 movidas para llegar a la meta, mientras que en el segundo serán necesarias 6. Es evidente que la segunda ruta es mejor que la primera.

El problema es que, independientemente de la ruta tomada, en ambos casos la puntuación obtenida al final será igual a 1.

Pero entonces, ¿cómo puede saber el agente que la segunda ruta es mejor que la primera? Es decir, debemos idear una forma de indicarle al agente que es mejor llegar a la meta en el menor número de movidas posible, y es aquí donde aparece el concepto del descuento, que veremos en detalle a continuación

El descuento: la importancia de las recompensas en el tiempo

En los dos casos anteriores, cuando sumamos las recompensas obtenidas en cada instante de tiempo obtuvimos lo que se conoce como el retorno.

Pero en este cálculo del retorno todas las recompensas individuales tenían el mismo peso o importancia, independientemente del número de jugadas realizadas: es decir, el +1 obtenido al final de la octava movida en la primera ruta es exactamente igual al +1 obtenido al final de la sexta movida en la segunda ruta, y por eso el retorno obtenido en ambos casos es exactamente el mismo.

La idea del descuento es sencilla: entre más tiempo pase menos peso tendrán las recompensas obtenidas. Para cuantificar esto se usa un valor que a medida que pasa el tiempo se va reducir de manera exponencial, y este valor se usará para ponderar las recompensas obtenidas en los diferentes instantes de tiempo. Este valor se conoce como factor de descuento o gamma

Un ejemplo del descuento

Veamos cómo funciona este descuento a través de un ejemplo. Supongamos que para las dos rutas que estamos analizando usaremos un factor de descuento (gamma) de 0.99.

Si calculamos el retorno obtenido en cada caso, usando el factor de descuento, obtendremos 0.932 para la ruta 1 (8 movidas) y 0.950 para la ruta 2 (6 movidas).

Y en este caso sí vemos una diferencia importante: con 8 movidas se tiene un retorno menor que aquel obtenido con 6 movidas. Esto esencialmente le indica al agente que es mejor realizar 6 movidas en lugar de 8, porque el retorno final será mayor.

El descuento: notación matemática

Podemos entonces formalizar este concepto de descuento usando la siguiente notación matemática:

Retorno sin incluir el descuento: $G_t = R_{t+1} + R_{t+2} + R_{t+3} + …$
Retorno con descuento: simplemente debemos incluir el factor de descuento que pondera las recompensas individuales: $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} + \gamma^3R_{t+4} + …$
Y este retorno con descuento lo podemos representar de forma compacta usando la notación de sumatoria: $G_t=\sum_{k=0}^\infty \gamma^kR_{t+k+1}$

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Perfecto, con este concepto del descuento ya hemos completado nuestro ejemplo del tablero bidimensional y hemos agregado todos los elementos que hacen parte del Proceso de Decisión de Markov: los estados, las acciones, la función de transición, la recompensa y además de esto el horizonte y el descuento.

Con todos estos elementos ya podemos caracterizar por completo prácticamente cualquier problema de Aprendizaje por Refuerzo, y estamos listos entonces para entrar a la última sección del curso, donde veremos una introducción a los diferentes algoritmos que existen para el entrenamiento del agente.

Entonces, en la próxima lección hablaremos en detalle de cuál es precisamente el objetivo del Agente.

Ver todas las lecciones de este curso