4.3 - Arquitectura de una Red Neuronal Recurrente

Lección 3 de la sección “Redes Recurrentes y LSTM” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos el principio de funcionamiento de las Redes Recurrentes y entendimos sus ventajas frente a las Redes Neuronales y Convolucionales al momento de procesar secuencias.

En esta lección veremos en detalle la arquitectura de estas Redes Recurrentes. En particular veremos los elementos que la conforman y que permiten realizar el procesamiento de secuencias.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Ejemplo de motivación: el modelado del lenguaje

Para entender cómo está conformada una Red Neuronal Recurrente, hablemos de una aplicación que se conoce como “modelado del lenguaje”.

El ejemplo típico de esta aplicación es cuando usamos el chat en nuestro dispositivo móvil: al escribir una letra o una palabra, la aplicación intenta predecir la siguiente letra o palabra.

Así que en el dispositivo móvil lo que tenemos es un modelo de lenguaje: dado un elemento de una secuencia (en este caso texto), el modelo intenta predecir el siguiente elemento en dicha secuencia.

Este mismo principio se usa en las Redes Recurrentes: además del elemento de la secuencia que se está procesando en un instante de tiempo determinado, la Red preserva algún tipo de “información” que usará como la propia entrada a la red para predecir el siguiente elemento en la secuencia.

El estado oculto: la memoria de la Red Neuronal Recurrente

Así que la Red Recurrente posee un cierto tipo de “memoria”, que le permite preservar la “información” entre un instante de tiempo y otro.

Rigurosamente hablando, esta “memoria” se conoce como el estado oculto y matemáticamente se calcula usando el dato de entrada y el estado oculto en el instante de tiempo anterior, transformándolos y luego llevándolos a una función de activación no-lineal, ¡tal como se hacía en el caso de la Neurona Artificial y de las Redes Neuronales!

La diferencia importante en este caso es que la Red Recurrente se alimenta con dos datos: el elemento de la secuencia que se está procesando y el estado oculto proveniente del instante de tiempo anterior.

Y con esto la Red logra preservar la información proveniente de instantes de tiempo anteriores, permitiendo así procesar una secuencia.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Muy bien, ya sabemos cuál es la arquitectura de una Red Neuronal Recurrente y cómo el estado oculto permite preservar información entre un instante de tiempo y otro, permitiendo así el procesamiento de secuencias por parte de la Red.

Para terminar de comprender estos conceptos, en la próxima lección veremos un ejemplo paso a paso de una Red Neuronal Recurrente en acción.

Ver todas las lecciones de este curso