5.4 - Codificación: el 'embedding' de entrada

Lección 4 de la sección “Redes Transformer” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos la arquitectura general de una Red Transformer, lo que nos permitió tener una idea general de los diferentes elementos que componen estas redes.

En esta lección hablaremos del embedding de entrada, el primer bloque de la etapa de códificación en la Red Transformer y que permite pre-procesar la secuencia que ingresa a la red.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

De palabras a tokens

La primera etapa de procesamiento de la Red Transformer se conoce como tokenización, que permite convertir cada elemento del texto de entrada en una representación numérica.

El embedding de entrada

La tokenización no es suficiente para que la Red comience a procesar los datos, pues realmente se requiere que cada elemento de la secuencia sea representado de forma vectorial.

El embedding de entrada se encarga precisamente de esto: toma el token correspondiente a cada elemento en la secuencia de entrada y genera una representación vectorial. En particular, en la Red Transformer original este vector tiene una longitud de 512, lo cual se logra entrenando una pequeña Red Neuronal que es el elemento central de este bloque.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Con el embedding de entrada es posible representar cada elemento de la secuencia como un vector de 512 elementos.

El siguiente bloque en la etapa de codificación es el codificador posicional, del cual hablaremos en detalle en la siguiente lección.

Ver todas las lecciones de este curso