5.9 - Decodificación: el bloque atencional con enmascaramiento

Lección 9 de la sección “Redes Transformer” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos las principales características y el principio de funcionamiento de la etapa de decodificación de la Red Transformer.

En esta lección veremos en detalle cómo funciona el bloque atencional con enmascaramiento del decodificador, que permite entrenar en paralelo la Red pero a su vez generar predicciones de manera secuencial.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El bloque atencional con enmascaramiento en detalle

Este bloque es prácticamente idéntico al bloque atencional del codificador.

Sin embargo, a esta configuración inicial se añade un bloque de enmascaramiento, que permite calcular la atención para cada palabra pero garantizando que en cada caso el cálculo tendrá en cuenta sólo la palabra actual y las generadas anteriormente, pero no las futuras.

Esto permite procesar la secuencia en paralelo durante el entrenamiento, pero a la vez permite que esta red aprenda a generar la siguiente palabra dentro del texto de salida (es decir de forma secuencial).

Otros elementos del bloque atencional con enmascaramiento

Así como ocurría con el codificador, en este caso cada decodificador contiene múltiples bloques atencionales con enmascaramiento (conocidos como multi-head masked-attention) y bloques residuales, que cumplen la misma función descrita anteriormente.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Teniendo claro el funcionamiento en detalle del bloque atencional con enmascaramiento, es momento de enfocarnos en otro de los elementos que diferencial la etapa de decodificación de la codificación.

Así que en la próxima lección nos enfocaremos en el bloque atencional de la decodificación.

Ver todas las lecciones de este curso