2 - Ejemplos reales de aplicación del aprendizaje por refuerzo

Lección 2 del curso Aprendizaje por Refuerzo Nivel Básico.

Introducción

En la lección anterior vimos una definición del Aprendizaje por Refuerzo o Reforzado, que esencialmente es un área del Machine Learning que busca implementar algoritmos que permitan a un agente aprender a tomar decisiones a partir de su interacción con el entorno.

Para complementar este panorama, en esta lección veremos ejemplos reales de aplicación del Aprendizaje por Refuerzo en diferentes ámbitos de nuestra sociedad.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Ejemplos reales de aplicación

En los juegos de mesa y videojuegos

El primer ejemplo del Aprendizaje por Refuerzo aplicado al área de los videojuegos es TD-Gammon, una inteligencia artificial capaz de jugar Backgammon, un juego de mesa de más de 5.000 años de antigüedad.

En el juego se enfrentan dos jugadores, cada uno con 15 piezas (unas negras, las otras blancas) que se pueden desplazar entre los triángulos del tablero de acuerdo al resultado del lanzamiento de los dados. El objetivo del juego es lograr ser el primero en mover las 15 piezas fuera del tablero.

TD-Gammon, desarrollada en 1992 por IBM, usaba como “cerebro” para la toma de decisiones un sistema de Aprendizaje Reforzado, y en su momento alcanzó un desempeño muy cercano al del ser humano.

Y uno de los desarrollos más interesantes en éste ámbito fue el de AlphaGo (2017), también de DeepMind, un agente que fue capaz de aprender a jugar Go, un juego de mesa inventado en China hace más de 2500 años.

Este juego es incluso más complejo que Backgammon o el Ajedrez, y el objetivo es usar las piezas para formar territorios (de color negro o blanco) en el tablero, y el objetivo del juego es controlar la mayor parte de las regiones del tablero.

AlphaGo usa una variante del aprendizaje por Refuerzo, que se conoce como Aprendizaje por Refuerzo Profundo, y fue capaz incluso de vencer al campeón mundial de este juego.

Más recientemente, los investigadores de DeepMind de Google, desarrollaron Agent57 (2020), un agente de Aprendizaje por Refuerzo que logró superar al ser humano en todos los 57 juegos de la consola Atari 2600.

En la robótica

Convencionalmente se han usado algoritmos provenientes de la Teoría de Control para lograr que robots, de aspecto humanoide, puedan desarrollar diferentes tareas. El inconveniente de este enfoque es que resulta difícil predecir, en un entorno real, todas las posibles acciones que tendría que ejecutar el robot, pues con antelación se requiere un total conocimiento del entorno.

Así que recientemente se ha incorporado el aprendizaje por refuerzo para diseñar agentes más versátiles capaces de tomar decisiones adecuadas en entornos reales que incluso no han sido previamente explorados.

Un ejemplo de esto es QT-Opt, desarrollado por Google en 2018, un sistema basado en aprendizaje por refuerzo y visión artificial usado en agentes que permiten controlar manos robóticas, con el cual el robot puede actualizar su estrategia de agarre para optimizar los resultados a largo plazo.

Continuando con esta tendencia está también el agente desarrollado por OpenAI en 2019 y que es capaz de resolver el cubo de Rubik con una mano. Más allá de las pocas aplicaciones que esto pueda tener en el mundo real, lo interesante de esto es que el agente es más robusto que un sistema de control tradicional, pues es capaz de soportar perturbaciones externas y a pesar de esto logra resolver el problema.

En los vehículos autónomos

Tesla, uno de los líderes de este mercado, ha enfocado buena parte de sus recursos en el desarrollo de vehículos que hacen únicamente uso de visión artificial en combinación con el Aprendizaje por Refuerzo para navegar autónomamente.

En este caso los vehículos poseen múltiples cámaras de video (generalmente 3: una delantera de corto alcance, una delantera de largo alcance y una trasera) y con esta información (pre-procesada con un tipo de Red Neuronal llamado Redes Convolucionales) alimentan un agente de Aprendizaje por Refuerzo que aprende a determinar la profundidad o distancia de los obstáculos, la aceleración y la velocidad del vehículo para tomar decisiones prácticamente en tiempo real.

En la reducción del consumo energético

Algunas empresas han creado agentes de Aprendizaje Reforzado para reducir el consumo energético y el impacto ambiental.

Por ejemplo Google creo uno de estos agentes para controlar el sistema de enfriamiento de sus centros de datos. Lo que hace este agente es tomar información, de miles de sensores de este sistema, cada 5 minutos y logra predecir cómo diferentes acciones permiten minimizar el consumo de energía a futuro. En promedio este agente ha permitido a Google reducir su consumo energético un 30%.

En la medicina y la biología

En el área de desarrollo de nuevos medicamentos algunas empresas han comenzado a incorporar el aprendizaje por refuerzo para acelerar este proceso. Un ejemplo es Insilico, que en 2020 uso una estrategia de Aprendizaje por Refuerzo Profundo para obtener, en tan sólo 19 días un total de 40 moléculas candidatas para el tratamiento de la fibrosis quística. Esto resulta impresionante si se tiene en cuenta que convencionalmente este proceso puede tomar hasta 7 años.

Y también en el área de la genómica ha habido desarrollos impresionantes. A finales de 2020 DeepMind (los mismos creadores de AlphaGo) desarrollaron AlphaFold, un sistema de Aprendizaje por Refuerzo capaz de resolver el problema del plegamiento de las proteínas, un reto de la biología desde hace más de 50 años.

Esencialmente las proteínas son uno de los bloques esenciales de la vida, pues determinan la mayoría de las funciones de cada una de las células de los seres vivos. Cada célula contiene el ADN, y estas cadenas de ADN a su vez conforman secuencias lineales de aminoácidos que finalmente se pliegan en estructuras tridimensionales conformando las proteínas.

Hasta antes de la creación de AlphaFold no existía técnica alguna para predecir de manera precisa la estructura tridimensional de una proteína a partir de la secuencia de aminoácidos. Con AlphaFold ahora es posible lograr esto, y al conocer esta estructura tridimensional permite entender qué hace y cómo funciona esta proteína, y esto tiene el potencial de desarrollar nuevos medicamentos para el tratamiento de enfermedades o nuevas formas de diagnosticarlas, así como el desarrollo de tratamientos personalizados, e incluso tiene el potencial de desarrollar nuevos componentes capaces de procesar desechos industriales y reducir su impacto en el medio ambiente.

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

En esta lección hemos visto sólo unos cuantos ejemplos del potencial que tiene el Aprendizaje por Refuerzo en diferentes ámbitos de nuestra sociedad, desde aplicaciones de entretenimiento como los videojuegos hasta otras que podrían impactar el futuro de la medicina y la comprensión de cómo funciona nuestro organismo.

En la próxima lección nos enfocaremos entonces en la historia y evolución del aprendizaje por refuerzo, y de esta forma tendremos una perspectiva completa de los temas que abordaremos en este y en los próximos cursos.

Ver todas las lecciones de este curso