5.10 - Decodificación: el bloque atencional

Lección 10 de la sección “Redes Transformer” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos el funcionamiento detallado del bloque atencional con enmascaramiento del decodificador, que permite entrenar en paralelo la Red pero a su vez generar predicciones de manera secuencial.

En esta sección veremos cómo funciona el bloque atencional de la etapa de decodificación, que permite procesar simultáneamente la secuencia tanto en el idioma original (proveniente de la salida de la etapa de codificación) como la secuencia en el idioma destino (que viene de ser proceasda por el bloque atencional con enmascaramiento).

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Estructura del bloque atencional en la decodificación

El objetivo de este bloque es aprender a cuantificar relaciones no sólo en la secuencia destino sino también su relación con la secuencia original (proveniente de la etapa de codificación).

Este bloque atencional de la decodificación se encarga entonces de combinar la información de estas dos secuencias para, durante el entrenamiento, aprender a generar la traducción del texto original.

La decodificación: multi-head attention, bloques residuales y fully-connected

Al igual que con la etapa de codificación, en este bloque el cálculo de la atención se hace múltiples veces y a diferentes niveles, generando así una matriz atencional.

De igual manera, los bloques atencionales de la deodificación incluyen bloques residuales y de normalización junto con una pequeña red neuronal que buscan preservar la información procesada por los diferentes bloques, mejorando así el proceso de entrenamiento y aprendizaje de la red.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Muy bien, ya tenemos el segundo elemento esencial de la etapa de decodificación: el bloque atencional, que combina la información de la secuencia original y en el idioma destino para aprender a generar las traducciones.

Lo único que nos falta es hablar de la etapa de salida de esta decodificación, que será precisamente el tema de la próxima lección.

Ver todas las lecciones de este curso