2.22 - Otros algoritmos de optimización: Gradiente Descendente con Momentum

Lección 22 de la sección “Redes Neuronales” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior hablamos del gradiente descendente estocástico y del mini-batch gradient descent, como alternativas al algoritmo clásico del Gradiente Descendente.

En esta lección veremos una segunda variante del algoritmo convencional, conocida como el Gradiente Descendente con Momentum, y que permite acelerar el proceso de entrenamiento.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Limitaciones del Gradiente Descendente Estocástico y mini-batch

El problema de estos algoritmos, vistos en la lección anterior, es que la actualización de los parámetros depende sólo de los valores actuales del gradiente, y esto hace que la curva de entrenamiento pueda tener variaciones abruptas que ralentizan el proceso de entrenamiento.

El principo de funcionamiento del momentum

El Gradiente Descendente con Momentum se basa en el principio del promedio: si tenemos una serie de datos relativamente ruidosa y la promediamos, lo que lograremos con esta operación será atenuar dicho ruido.

Este principio se aplica entonces al algoritmo del momentum. Así, en la actualización que se da en la iteración seguiremos usando el mismo término asociado al valor actual del gradiente, pero incorporaremos ahora un término adicional (precisamente el término de momentum) que tendrá en cuenta las variaciones del gradiente en iteraciones anteriores.

Ventajas del Gradiente Descendente con momentum

El uso del momentum logra “suavizar” la trayectoria del algoritmo al momento del entrenamiento. Y al tener menos oscilaciones en general se logra acelerar el proceso de entrenamiento, es decir lograr entrenar el modelo con una menor cantidad de iteraciones.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Muy bien, acabamos de ver cómo usar el principio de la media móvil en el algoritmo del Gradiente Descendente con Momentum para, en términos generales, mejorar el proceso de entrenamiento definiendo trayectorias más suaves hasta llegar al mínimo global de la pérdida.

En la próxima lección hablaremos de RMSPROP, otra variante del algoritmo clásico del Gradiente Descendente visto inicialmente.

Ver todas las lecciones de este curso