5.11 - Decodificación: etapa de salida

Lección 11 de la sección “Redes Transformer” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos el principio de funcionamiento del bloque atencional de la decodificación, que permite a la Red Transformer combinar la información de la secuencia original con la del idioma destino para generar las traducciones.

En esta lección veremos cómo la etapa de salida del decodificador en una Red Transformer permite generar la secuencia de salida en un formato entendible por parte del ser humano, que en el caso de la arquitectura original corresponde al texto traducido al idioma destino.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Principio de funcionamiento de la etapa de salida

A la salida del sexto decodificador tendremos las predicciones pero codificadas como palabras, que en el caso de la Red Transformer original están representadas como vetores de 512 elementos.

La idea de esta etapa de salida de la decodificación es convertir esta representación compacta en una palabra que podamos interpretar como seres humanos.

La capa lineal

Para lograr esta decodificación de vectores a palabras, se usa en primer lugar una capa lineal, que es simplemente una pequeña Red Neuronal que proyecta este vector a uno mucho más grande, que tendrá el tamaño del vocabulario en el idioma destino.

La capa softmax

Posteriormente se añade una capa con función de activación softmax, que permite convertir cada elemento del vector de puntajes proveniente de la capa lineal en una representación de probabilidades.

Así, la posición correspondiente a la probabilidad más alta indica precisamente la palabra generada en el idioma destino por parte de la Red Transformer.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

¡Perfecto! Ya tenemos todos los elementos que conforman la Red Transformer, así que ya estamos listos para iniciar el componente práctico de esta última parte del curso.

Así que en las próximas lecciones veremos precisamente cómo usar la Red Transformer para resolver diferentes problemas asociados al procesamiento de secuencias.

En particular, en la próxima lección veremos la primera práctica, en donde usaremos esta arquitectura para resolver un problema de Machine Translation: la traducción de texto de un idioma a otro.

Ver todas las lecciones de este curso