5.4 - Codificación: el 'embedding' de entrada
Lección 4 de la sección “Redes Transformer” del curso Fundamentos de Deep Learning con Python.
Tabla de contenido
Introducción
En la lección anterior vimos la arquitectura general de una Red Transformer, lo que nos permitió tener una idea general de los diferentes elementos que componen estas redes.
En esta lección hablaremos del embedding de entrada, el primer bloque de la etapa de códificación en la Red Transformer y que permite pre-procesar la secuencia que ingresa a la red.
Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
De palabras a tokens
La primera etapa de procesamiento de la Red Transformer se conoce como tokenización, que permite convertir cada elemento del texto de entrada en una representación numérica.
El embedding de entrada
La tokenización no es suficiente para que la Red comience a procesar los datos, pues realmente se requiere que cada elemento de la secuencia sea representado de forma vectorial.
El embedding de entrada se encarga precisamente de esto: toma el token correspondiente a cada elemento en la secuencia de entrada y genera una representación vectorial. En particular, en la Red Transformer original este vector tiene una longitud de 512, lo cual se logra entrenando una pequeña Red Neuronal que es el elemento central de este bloque.
Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Conclusión
Con el embedding de entrada es posible representar cada elemento de la secuencia como un vector de 512 elementos.
El siguiente bloque en la etapa de codificación es el codificador posicional, del cual hablaremos en detalle en la siguiente lección.