4 - Componentes de un sistema de aprendizaje por refuerzo
Lección 4 del curso Aprendizaje por Refuerzo Nivel Básico.
Tabla de contenido
Introducción
En la lección anterior tuvimos una visión general de la historia del aprendizaje por refuerzo, y allí hablamos de los principales hitos en sus poco más de 70 años de historia.
En esta lección definiremos entonces los componentes que hacen parte de cualquier sistema de aprendizaje por refuerzo. En particular hablaremos del agente, del entorno, de las observaciones y los estados, de las acciones y de la recompensa.
Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Componentes de un sistema de aprendizaje por refuerzo
Para entender la definición de cada uno de estos componentes consideremos por ejemplo el caso del robot desarrollado por Google, del cual hablamos en el segundo video del curso, que era un sistema de aprendizaje por refuerzo entrenado para atrapar diferentes objetos ubicados en una superficie.
Si analizamos en detalle este sistema, contendrá varios elementos: el brazo mecánico, los servomotores que permiten mover el brazo, la superficie, las piezas a recoger, la cámara de video acoplada al robot, así como una especie de computador central que recopila dichas imágenes y permite al robot realizar diferentes movimientos.
El agente y el entorno: los dos componentes principales
Pero más allá de toda esta complejidad y de los múltiples elementos que puedan hacer parte de este robot, podemos definir dos componentes fundamentales en este sistema: el agente y el entorno.
El primer componente básico, el agente, es básicamente esa porción de código, almacenada en el computador del robot, encargada de la toma de decisiones, que en este caso le indicará al robot cuando agarrar o soltar un objeto en particular.
El segundo componente básico es el entorno, que es simplemente todo aquello que no haga parte del agente. Volviendo al ejemplo del robot, en este caso la superficie, los objetos, la cámara e incluso los servomotores y el brazo mismo y el computador serán este entorno.
Este entorno puede ser representado por un set de variables relacionadas con el problema. En nuestro ejemplo estas variables pueden ser por ejemplo: las coordenadas, forma y color de cada objeto, la velocidad y posición del brazo, la velocidad de apertura y cierre de la pinza, etc, etc. Y este set de variables y todos los posibles valores que pueden tomar se conocen como espacio de estados.
Y un estado es entonces simplemente una instancia o muestra de este espacio de estados. Por nuestro ejemplo un estado puede ser la ubicación exacta (coordenadas x y y) de un objeto en particular.
Los demás componentes resultantes cuando agente y entorno interactúan
Cuando el agente y el entorno comienza a interactuar, aparecen los siguientes componentes que permiten llevar a cabo el proceso de aprendizaje:
- La observación o el estado, que es el set de variables (parcial o completo) del espacio de estados, que el agente logra percibir en un momento dado
- La acción, que es básicamente la decisión que toma el agente en un instante de tiempo dado para interactuar con el entorno
- La recompensa, que es una cantidad numérica generada por el entorno que indica al agente qué tan buena o mala fue la acción que ejecutó.
Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Conclusión
Bien, ya hemos definido formalmente los componentes de un sistema de Aprendizaje por Refuerzo y vimos que esencialmente el objetivo es que el agente tome como entradas los estados y la recompensa (provenientes del entorno) y aprenda a generar las acciones que le permitan a largo plazo obtener la máxima recompensa posible.
Así que ya estamos listos para entrar a la sección más importante del curso, los Procesos de Decisión de Markov, que es básicamente el lenguaje matemático que usaremos para formular cualquier problema de Aprendizaje por Refuerzo.
Entonces, en la próxima lección veremos una introducción a estos Procesos de Decisión de Markov