5.1 - Introducción a las Redes Transformer

Lección 1 de la sección “Redes Transformer” del curso Fundamentos de Deep Learning con Python.

Introducción

En la última lección de la sección anterior vimos las ventajas y limitaciones de las Redes Recurrentes y de las Redes LSTM.

Pues precisamente las Redes Transformer fueron creadas con el fin de solventar varias de estas limitaciones al momento de procesar secuencias. Así que en esta lección veremos un panorama general de las Redes Transformer, enfocándonos principalmente en sus ventajas frente a las Redes Recurrentes y LSTM.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El origen de las Redes Transformer

Esta nueva arquitectura fue propuesta en el año 2017 por investigadores de Google, liderados Ashish Baswani. La descripción detallada de estas redes se encuentra precisamente en el artículo Attention is all you need publicado por sus autores.

A lo largo del curso veremos en detalle todos los elementos de esta arquitectura según lo propuesto por sus autores. Pero por ahora nos enfocaremos en sus ventajas frente a las Redes Recurrentes y LSTM vistas en la sección anterior.

Las Redes Transformer vs. las Redes Recurrentes y LSTM

Procesamiento en paralelo

La gran semejanza de las Redes Transformer con las Redes Recurrentes y LSTM es que en ambos casos se trata de arquitecturas especializadas en el procesamiento de secuenias.

Sin embargo, la primera ventaja importante es que las Redes Transformer permiten procesar las secuencias en paralelo (es decir todos sus elementos de manera simultánea), mientras que las Redes Recurrentes y LSTM procesan los datos de forma secuencial (es decir uno a uno).

Este procesamiento en paralelo hace un mejor aprovechamiento de los recursos hardware durante el entrenamiento y permite el uso de sets de entrenamiento mucho más grandes.

Memoria de largo plazo

En las Redes Recurrentes está el problema de los gradientes que desvanecen, que limitan la memoria de largo plazo de estas redes. Este problema sigue estando presente en las Redes LSTM pero en menor grado.

Por su parte las Redes Transformer eliminan por completo este inconveniente debido precisamente al procesamiento en paralelo, lo cual les permite tener una memoria de mucho más largo plazo en comparación con las redes vistas en la sección anterior.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Acabamos de ver algunas características de las Redes Transformer y lo que las diferencia de las Redes Recurrentes y LSTM.

Así que para tener un panorama aún más completo del potencial de esta nueva arquitectura, en la próxima lección veremos algunas de las principales aplicaciones de estas Redes Transformer.

Ver todas las lecciones de este curso