5 - Introducción a los Procesos de Decisión de Markov

Lección 5 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

Con los componentes básicos de un sistema de Aprendizaje por Refuerzo vistos en la lección anterior, podemos ahora sí comenzar a formalizar matemáticamente un problema de Aprendizaje por Refuerzo.

Así que en esta lección veremos la notación matemática que usaremos de aquí en adelante y la definición de lo que son los Procesos de Decisión de Markov, que es precisamente el lenguaje matemático que se usa para formular diferentes problemas de Aprendizaje por Refuerzo.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Toma de decisiones de manera secuencial

Recordemos que en el Aprendizaje por Refuerzo lo que buscamos es lograr entrenar a un agente para que aprenda a tomar decisiones secuenciales de manera óptima.

Y acá es importante resaltar dos términos: “secuenciales” y “óptima”. Por ejemplo, supongamos que queremos entrenar un agente para que aprenda a jugar ajedrez:

La interacción agente-entorno: notación matemática

Recordemos que el elemento que aprende y que toma las decisiones es el agente. Y que todo lo demás por fuera del agente se conoce como el entorno.

Y recordemos también que el agente y el entorno interactúan continuamente: el agente selecciona acciones que afectan el entorno, el entorno responde a estas acciones generando recompensas y cambios de estado, y con esta información el agente busca mejorar a largo plazo su proceso de toma de decisiones.

Comencemos agregando una notación matemática a varias de estas ideas:

La función de transición: el componente de aleatoriedad

Pero hay algo adicional: hemos mencionado que cuando el agente genera una acción, el entorno percibe esta acción y genera una transición de estado.

Pero esta transición de estado tiene algo de aleatoriedad, es decir que no podremos tener una certeza total de cuál será el nuevo estado partiendo del estado y la acción actuales.

Así que para cada par acción-estado en nuestro juego tendremos una probabilidad de transición al siguiente estado. Y el conjunto de todas las probabilidades de transición se conoce entonces como la función de transición.

Esta función de transición la vamos a denotar como:

$p(s'|s,a)=P(S_t=s'|S_{t-1}=s,A_{t-1}=a)$

donde:

Los Procesos de Decisión de Markov y su importancia

Ahora sí tenemos todos los elementos para definir qué son los Procesos de Decisión de Markov.

Básicamente, un Proceso de Decisión de Markov es el conjunto que contiene el espacio de estados ($S$), el espacio de acciones ($A$), la recompensa ($R$) y la función de transición ($p$) en un problema de Aprendizaje por Refuerzo.

Este conjunto, o Proceso de Decisión de Markov, lo vamos a denotar como: $(S,A,R,p)$

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien, acabamos de ver que un Proceso de Decisión de Markov es básicamente una forma de representar matemáticamente todos los componentes relevantes de nuestro problema de aprendizaje por refuerzo.

Entonces, en lo que resta de esta sección del curso veremos en detalle cómo construir paso a paso un Proceso de Decisión de Markov para diferentes tipos de problemas.

Así que en la siguiente lección comenzaremos con un primer ejemplo sencillo, considerando un pequeño juego con un tablero unidimensional, en donde un agente se desplazará por un tablero súper simplificado.

Ver todas las lecciones de este curso