4.8 - Limitaciones de las Redes Neuronales Recurrentes

Lección 8 de la sección “Redes Recurrentes y LSTM” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior logramos entrenar nuestra primera Red Recurrente, capaz de generar texto a nivel de caracteres.

Sin embargo, en dicha implementación vimos que el modelo entrenado comenzaba a repetir los caracteres ubicados al final de la secuencia, y mencionamos que la razón de esto es porque las Redes Recurrentes poseen algo que se conoce como “memoria de corto plazo”.

En esta lección entenderemos las razones de este comportamiento.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Los gradientes que explotan y que se desvanecen

En la sección 2 de este curso, cuando hablamos de las Redes Neuronales, mencionamos que un problema recurrente al momento de entrenarlas es lo que se conoce como los gradientes que explotan y que se desvanecen.

Pues resulta que en el caso de las Redes Recurrentes, el problema de los gradientes que desvanecen es aún más marcado: entre más extensa sea la secuencia procesada (o generada), más notorio será el desvanecimiento de los gradientes.

Esto implica que la Red Recurrente, tal como la hemos visto hasta ahora, no estará en capacidad de capturar la información muchos instantes de tiempo hacia atrás, y sólo podrá hacerlo para los elementos procesados más recientemente dentro de la secuencia.

En términos coloquiales podemos decir entonces que los gradientes que desvanecen hacen que la Red Recurrente no tenga “memoria de largo plazo” y que funcione adecuadamente sólo para secuencias relativamente cortas (es decir que posee sólo memoria de “corto plazo”).

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Una solución al problema que acabamos de describir son las Redes Recurrentes con memoria tanto de corto como de largo plazo, o redes LSTM por sus siglas en Inglés (Long short-term memory).

Así que en lo que resta de esta sección del curso nos enfocaremos en esta arquitectura. En particular, en la próxima lección comenzaremos a hablar de estas Redes LSTM y de dos de sus componentes: las compuertas y la celda de memoria candidata.

Ver todas las lecciones de este curso