5.10 - Decodificación: el bloque atencional
Lección 10 de la sección “Redes Transformer” del curso Fundamentos de Deep Learning con Python.
Tabla de contenido
Introducción
En la lección anterior vimos el funcionamiento detallado del bloque atencional con enmascaramiento del decodificador, que permite entrenar en paralelo la Red pero a su vez generar predicciones de manera secuencial.
En esta sección veremos cómo funciona el bloque atencional de la etapa de decodificación, que permite procesar simultáneamente la secuencia tanto en el idioma original (proveniente de la salida de la etapa de codificación) como la secuencia en el idioma destino (que viene de ser proceasda por el bloque atencional con enmascaramiento).
Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Estructura del bloque atencional en la decodificación
El objetivo de este bloque es aprender a cuantificar relaciones no sólo en la secuencia destino sino también su relación con la secuencia original (proveniente de la etapa de codificación).
Este bloque atencional de la decodificación se encarga entonces de combinar la información de estas dos secuencias para, durante el entrenamiento, aprender a generar la traducción del texto original.
La decodificación: multi-head attention, bloques residuales y fully-connected
Al igual que con la etapa de codificación, en este bloque el cálculo de la atención se hace múltiples veces y a diferentes niveles, generando así una matriz atencional.
De igual manera, los bloques atencionales de la deodificación incluyen bloques residuales y de normalización junto con una pequeña red neuronal que buscan preservar la información procesada por los diferentes bloques, mejorando así el proceso de entrenamiento y aprendizaje de la red.
Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Conclusión
Muy bien, ya tenemos el segundo elemento esencial de la etapa de decodificación: el bloque atencional, que combina la información de la secuencia original y en el idioma destino para aprender a generar las traducciones.
Lo único que nos falta es hablar de la etapa de salida de esta decodificación, que será precisamente el tema de la próxima lección.