3 - Historia y evolución del aprendizaje por refuerzo

Enero 15, 2022 por Miguel Sotaquirá

Lección 3 del curso Aprendizaje por Refuerzo Nivel Básico.

Tabla de contenido

Introducción

En la lección anterior vimos varios ejemplos reales de aplicación del aprendizaje por refuerzo, en áreas como los videojuegos, la salud y la robótica.

En esta lección ampliaremos este panorama revisando cuál ha sido la historia y evolución del Aprendizaje por Refuerzo, así como sus principales hitos en poco más de setenta años de desarrollos.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Historia y evolución

A continuación resumiremos los principales acontecimientos que han rodeado el crecimiento y evolución del Aprendizaje Reforzado:

1850: Alexander Bain, filósofo y matemático Escocés, fue tal vez uno de los primeros en plantear que los humanos y animales aprendemos por prueba y error.
1911: Edward Thorndike, psicólogo norteamericano, propuso lo que se conoce como la “Ley del Efecto” indicando que en el proceso de aprendizaje del humano y de los animales intervienen “eventos de refuerzo” que determinan posteriormente cuáles acciones serán ejecutadas.
1927: Ivan Pavlov, fisiólogo Ruso, formalizó el concepto de “refuerzo”, describiéndolo como el fortalecimiento de un patrón de comportamiento en el animal debido a un estímulo incrementando la probabilidad de que el animal ejecute una determinada acción frente a dicho estímulo. De Pavlov es muy conocido los experimentos realizados con perros, en donde el animal aprendía a asociar el sonido de una campana con la hora de comer.
1952: Claude Shannon, un matemático, ingeniero eléctrico y criptógrafo norteamericano, desarrolló Theseus, una de las primeras máquinas que demostró el concepto de aprendizaje por prueba y error. Theseus era un pequeño ratón mecánico que usaba un enfoque de prueba y error para desplazarse exitosamente por un laberinto, a través del uso de relés e imanes que se encontraban en su superficie.
1957: Richard Bellman, un matemático norteamericano, desarrolla la programación dinámica, un método de optimización fundamental en el Aprendizaje por Refuerzo y del cuál hablaremos más adelante en el curso.
1958: el mismo Bellman introdujo la versión discreta (es decir lista para implementar computacionalmente) de los Procesos de Decisión de Markov, que son el lenguaje matemático usado para formular prácticamente todos los problemas de Aprendizaje por Refuerzo (y del cual hablaremos en detalle en la segunda parte de este curso)
1961: Marvin Minsky, un científico computacional estadounidense, fue uno de los primeros en acuñar el término “aprendizaje por refuerzo” aplicado a las ciencias computacionales. En su artículo “Steps Toward Artificial Intelligence” (Pasos hacia la Inteligencia Artificial) discutió varios conceptos relacionados con el aprendizaje por prueba y error, incluyendo la predicción y el problema de asignación de créditos, uno de los elementos teóricos fundamentales del Aprendizaje por Refuerzo (y del cual hablaremos más adelante en el curso)
1989: Christopher Watkins y Peter Dayan desarrollaron el algoritmo de Q-learning que permite a un agente tomar decisiones basado en las señales de recompensa que recibe de su entorno, y que es uno de los pilares fundamentales del Aprendizaje por Refuerzo (del cual hablaremos en detalle más adelante en esta serie de cursos)
1992: IBM desarrolló TD-Gammon (como lo mencionamos en la segunda lección), uno de los primeros agentes de Aprendizaje por Refuerzo que hizo uso de [Redes Neuronales] y que logró un desempeño igual al del ser humano en el juego de mesa Backgammon.
2000: Richard Sutton et al. desarrollaron el método de Gradientes de Políticas (o Política del Gradiente), que junto con el método de Q-learning es uno de los pilares fundamentales del Aprendizaje por Refuerzo (y del cual también hablaremos en detalle en esta serie de cursos)
2004: Andrew Ng (uno de los referentes en la actualidad en el área del Machine Learning) desarrolló un helicóptero autónomo capaz de realizar maniobras “observando” varias horas de grabaciones de vuelos realizados por los humanos. Este agente también incorporó el uso de Redes Neuronales para aprender a ejecutar las diferentes maniobras.
2013: se realizan los primeros trabajos de Deep Reinforcement Learning, una de las técnicas más prometedoras del Aprendizaje de Refuerzo, la cual combina técnicas convencionales del Aprendizaje Reforzado (como las que veremos en este curso) con técnicas de Deep Learning basadas en Redes Neuronales profundas. En particular en 2013 varios investigadores de DeepMind desarrollaron el algoritmo DQN (Deep Q-Networks) una evolución del algoritmo convencional del Q-Learning y con el cual lograron superar al ser humano en 22 de 49 juegos de Atari

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Perfecto, hemos visto algunos de los hitos más importantes en la historia del Aprendizaje por Refuerzo, incluyendo las bases teóricas y algunos de los principales algoritmos de los cuales hablaremos más adelante en este y en los próximos cursos.

Así que es momento de comenzar a formalizar varios conceptos de la teoría básica del Aprendizaje por Refuerzo. Entonces en la próxima lección veremos en detalle cuáles son los componentes de un sistema de aprendizaje por refuerzo.

Ver todas las lecciones de este curso