5 - Introducción a los Procesos de Decisión de Markov
Lección 5 del curso Aprendizaje por Refuerzo Nivel Básico.
Tabla de contenido
Introducción
Con los componentes básicos de un sistema de Aprendizaje por Refuerzo vistos en la lección anterior, podemos ahora sí comenzar a formalizar matemáticamente un problema de Aprendizaje por Refuerzo.
Así que en esta lección veremos la notación matemática que usaremos de aquí en adelante y la definición de lo que son los Procesos de Decisión de Markov, que es precisamente el lenguaje matemático que se usa para formular diferentes problemas de Aprendizaje por Refuerzo.
Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Toma de decisiones de manera secuencial
Recordemos que en el Aprendizaje por Refuerzo lo que buscamos es lograr entrenar a un agente para que aprenda a tomar decisiones secuenciales de manera óptima.
Y acá es importante resaltar dos términos: “secuenciales” y “óptima”. Por ejemplo, supongamos que queremos entrenar un agente para que aprenda a jugar ajedrez:
- Las jugadas se realizan de manera secuencial, una después de la otra, y el agente debe aprender a planear la siguiente jugada contra su oponente. Es decir debe aprender a tomar decisiones secuenciales.
- Pero el agente debe aprender a tomar en cada jugada la mejor decisión posible que redunde en el mejor resultado posible a largo plazo. Así que el agente debe aprender a balancear no sólo las recompensas inmediatas sino aquellas a largo plazo.
La interacción agente-entorno: notación matemática
Recordemos que el elemento que aprende y que toma las decisiones es el agente. Y que todo lo demás por fuera del agente se conoce como el entorno.
Y recordemos también que el agente y el entorno interactúan continuamente: el agente selecciona acciones que afectan el entorno, el entorno responde a estas acciones generando recompensas y cambios de estado, y con esta información el agente busca mejorar a largo plazo su proceso de toma de decisiones.
Comencemos agregando una notación matemática a varias de estas ideas:
- La interacción se da de forma secuencial: el agente genera una acción, que es interpretada por el entorno el cual a su vez genera una recompensa y un estado, que son interpretados por el agente repitiendo una y otra vez el proceso. Vamos a decir que esta interacción se da en instantes de tiempo discretos $t=0,1,2,3…$
- En cada instante de tiempo tendremos diferentes estados, recompensas y acciones, así que las denotaremos con $S_t, R_t$ y $A_t$
- Así, podemos resumir esta interacción entre agente y entorno por la secuencia de estados, acciones y recompensas: $S_0,A_0,R_1,S_1,A_2,R_3,S_3,…$
- Al conjunto de todos los posibles estados ($S_1,S_2, …, S_n$) lo denotaremos como $S$ y lo llamaremos el espacio de estados
- Al conjunto de todas las posibles acciones que puede ejecutar el agente ($A_1, A_2, …, A_k)$ lo denotaremos como A y lo llamaremos espacio de acciones
- Al conjunto de todas las posibles recompensas ($R_1, R_2, R_3, …, R_l)$ lo denotaremos como $R$ y lo llamaremos la función de recompensa o simplemente la recompensa
La función de transición: el componente de aleatoriedad
Pero hay algo adicional: hemos mencionado que cuando el agente genera una acción, el entorno percibe esta acción y genera una transición de estado.
Pero esta transición de estado tiene algo de aleatoriedad, es decir que no podremos tener una certeza total de cuál será el nuevo estado partiendo del estado y la acción actuales.
Así que para cada par acción-estado en nuestro juego tendremos una probabilidad de transición al siguiente estado. Y el conjunto de todas las probabilidades de transición se conoce entonces como la función de transición.
Esta función de transición la vamos a denotar como:
$p(s’|s,a)=P(S_t=s’|S_{t-1}=s,A_{t-1}=a)$
donde:
- $p(s’|s,a)$ es la función de transición
- Y esta función de transición es igual a la expresión del lado derecho, que se lee como: “la probabilidad de hacer la transición al estado $s$ en el instante de tiempo $t$ ($S_t=s’$) dados (símbolo $|$) el estado actual ($S_{t-1}=s$) y la acción actual ($A_{t-1}=a$)
- Esta probabilidad es un valor entre 0 (no hay probabilidad de que ocurra) y 1 (total certeza de que ocurrirá)
Los Procesos de Decisión de Markov y su importancia
Ahora sí tenemos todos los elementos para definir qué son los Procesos de Decisión de Markov.
Básicamente, un Proceso de Decisión de Markov es el conjunto que contiene el espacio de estados ($S$), el espacio de acciones ($A$), la recompensa ($R$) y la función de transición ($p$) en un problema de Aprendizaje por Refuerzo.
Este conjunto, o Proceso de Decisión de Markov, lo vamos a denotar como: $(S,A,R,p)$
Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Conclusión
Bien, acabamos de ver que un Proceso de Decisión de Markov es básicamente una forma de representar matemáticamente todos los componentes relevantes de nuestro problema de aprendizaje por refuerzo.
Entonces, en lo que resta de esta sección del curso veremos en detalle cómo construir paso a paso un Proceso de Decisión de Markov para diferentes tipos de problemas.
Así que en la siguiente lección comenzaremos con un primer ejemplo sencillo, considerando un pequeño juego con un tablero unidimensional, en donde un agente se desplazará por un tablero súper simplificado.