4.9 - Las Redes LSTM (parte 1): las compuertas y la celda de memoria candidata

Lección 9 de la sección “Redes Recurrentes y LSTM” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos las [limitaciones de las Redes Neuronales Recurrentes], que se resumen en esencia a que sólo poseen memoria de corto plazo.

Las Redes LSTM (por sus siglas en Inglés: Long short-term memory) logran resolver este problema usando una versión modificada de la Red Recurrente convencional.

En esta lección hablaremos específicamente de dos de estos componentes, las compuertas y las celdas de memoria, que permiten a la Red LSTM tener memoria tanto de corto como de largo plazo.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Principio básico de funcionamiento de una Red LSTM

En las Redes Recurrentes convencionales el etado oculto permite preservar la información a corto plazo.

En una Red LSTM, además de contar con ese estado oculto, se usa una celda de memoria encargada de preservar la información a largo plazo.

Y para controlar el flujo de información y decidir qué elementos de la secuencia resultan relevantes y cuáles no al momento de procesarlos, se usa una serie de compuertas.

Compuertas de entrada, de olvidar y de salida

Estas compuertas son tres pequeñas Redes Neuronales, con función de activación softmax y que permiten decidir:

La celda de memoria candidata

Esta celda es similar a las mencionadas en la lección anterior, con la diferencia de que su función de activación será tipo tanh.

Como su nombre lo indica, esta celda almacena información de la secuencia que podría, más adelante durante el procesamiento, ser añadida a la salida de la Red (como veremos en la siguiente lección).

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Como acabamos de ver este sistema de compuertas permite preservar la información relevante para el procesamiento de la secuencia por parte de la Red LSTM, tanto a largo como a corto plazo.

Para entender cómo se lleva a cabo esta interacción, en la próxima lección veremos cómo se lleva a cabo la actualización de la celda de memoria y del estado oculto en una Red LSTM.

Ver todas las lecciones de este curso