4.13 - Ventajas y limitaciones de las Redes Neuronales Recurrentes y LSTM

Lección 13 de la sección “Redes Recurrentes y LSTM” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos cómo realizar la predicción de la demanda energética usando Redes LSTM, logrando un modelo con un desempeño bastante bueno, con un error en la predicción reducido durante las primeras 20 horas de predicción.

Para cerrar esta sección, y a pesar del impresionante potencial que tienen, en esta lección resumiremos las principales ventajas y desventajas de las Redes Recurrentes y LSTM en el procesamiento de secuencias.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El procesamiento de secuencias

Esta es la principal ventaja de las Redes Recurrentes y LSTM frente a arquitecturas como las [Redes Neuronales] y las [Redes Convolucionales] vistas anteriormente, pues se trata de arquitecturas diseñadas para procesar específicamente datos que se presentan de manera secuencial y donde sus elementos están correlacionados.

A pesar de ello, estas redes presentan dos inconvenientes: los gradientes que explotan y que se desvanecen y la imposibilidad del procesamiento en paralelo.

Gradientes que explotan y que se desvanecen

Como lo vimos anteriormente, una de las principales limitaciones de las Redes Recurrentes está en los gradientes que explotan (es decir que crecen sin límite) o que se desvanecen (es decir que progresivamente se acercan a cero), aspectos que dificultan el entrenamiento de esta arquitectura y reducen su capacidad de procesar secuencias de larga duración.

Si bien las Redes LSTM reducen significativamente este inconveniente, no lo eliminan por completo y este problema se hace más evidente a medida que la secuencia a procesar es cada vez más extensa (tal como lo vimos en el proyecto anterior).

La presencia de los gradientes que explotan y que se desvanecen limita en últimas la memoria de largo plazo de estas arquitecturas.

Procesamiento en paralelo

Y la segunda gran limitación de las Redes Recurrentes y LSTM está en la imposibilidad de procesar en paralelo (es decir de forma simultánea) todos los elementos de la secuencia.

Como lo hemos visto a lo largo de esta sección, se trata de arquitecturas que generan predicciones a partir del procesamiento uno a uno (es decir de manera secuencial) de los elementos de la secuencia.

Esto presenta un gran inconveniente pues hace que tanto el entrenamiento como la predicción sean procesos relativamente lentos (como lo vimos en el componente práctico de esta sección).

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Con estas ventajas y limitaciones de las Redes Recurrentes y LSTM tenemos ya un panorama claro de las principales características y campos de aplicación de estas arquitecturas.

Así que estamos listos para entrar a la última sección del curso, en donde hablaremos de las Redes Transformer, una arquitectura desarrollada en 2017 y que resuelve de forma efectiva varias de las limitaciones discutidas hace un momento, lo que ha hecho que esta nueva arquitectura haya revolucionado campos como el Procesamiento del Lenguaje Natural e incluso el Procesamiento de Imágenes.

Así que en la próxima lección veremos una introducción a estas Redes Transformer.

Ver todas las lecciones de este curso