8 - Práctica 2: Programación Dinámica con OpenAI Gym y Python

Lección 8 del curso Aprendizaje por Refuerzo Nivel Intermedio.

Introducción

En la primera práctica vimos una introducción a OpenAI Gym, una librería que nos facilita el proceso de simulación de las interacciones Agente-Entorno en un problema de Aprendizaje por Refuerzo.

En esta segunda práctica del curso veremos cómo implementar en Python, y con ayuda de OpenAI Gym, los cuatro algoritmos de Programación Dinámica vistos hasta el momento y cómo lograr que el Agente entrenado interactúe con el entorno, para el caso del juego del Tablero Bidimensional.

Contenido exclusivo suscriptores

Suscríbete y accede al código fuente y al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El problema a resolver

El objetivo de esta práctica será entrenar el Agente de nuestro juego del Tablero Bidimensional estocástico. Y este entrenamiento equivale a encontrar una Política óptima que le permita interactuar de la mejor manera posible a este Agente con el Entorno.

Para lograr esto usaremos los cuatro algoritmos de Programación Dinámica que hemos visto en esta sección del curso: la Evaluación de la Política, la Mejora de la Política, la Iteración de la Política y la Iteración de Valores. Así que con ayuda de la librería OpenAI Gym y de Python, implementaremos uno a uno dichos algoritmos para el entrenamiento del Agente y al final veremos cómo será su interacción con el entorno usando las políticas obtenidas.

Características del código a implementar

Implementación

Habiendo definido las características de nuestro programa, veamos paso a paso cómo implementar cada uno de estos elementos en Python, con la ayuda de Google Colab y de la librería OpenAI Gym:

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al código fuente y al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Perfecto, ya hemos puesto en práctica los conocimientos adquiridos hasta el momento y con la ayuda de OpenAI Gym ya hemos logrado entrenar nuestro primer agente usando los algoritmos de Programación Dinámica.

Así que ya es momento de comenzar con la segunda sección del curso, en donde nos enfocaremos en la familia de algoritmos conocida como Monte Carlo.

En particular, en la próxima lección comenzaremos viendo cómo realizar una tarea de predicción con Monte Carlo, es decir cómo evaluar una política usando esta familia de algoritmos.

Ver todas las lecciones de este curso