2.22 - Otros algoritmos de optimización: Gradiente Descendente con Momentum
Lección 22 de la sección “Redes Neuronales” del curso Fundamentos de Deep Learning con Python.
Tabla de contenido
Introducción
En la lección anterior hablamos del gradiente descendente estocástico y del mini-batch gradient descent, como alternativas al algoritmo clásico del Gradiente Descendente.
En esta lección veremos una segunda variante del algoritmo convencional, conocida como el Gradiente Descendente con Momentum, y que permite acelerar el proceso de entrenamiento.
Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Limitaciones del Gradiente Descendente Estocástico y mini-batch
El problema de estos algoritmos, vistos en la lección anterior, es que la actualización de los parámetros depende sólo de los valores actuales del gradiente, y esto hace que la curva de entrenamiento pueda tener variaciones abruptas que ralentizan el proceso de entrenamiento.
El principo de funcionamiento del momentum
El Gradiente Descendente con Momentum se basa en el principio del promedio: si tenemos una serie de datos relativamente ruidosa y la promediamos, lo que lograremos con esta operación será atenuar dicho ruido.
Este principio se aplica entonces al algoritmo del momentum. Así, en la actualización que se da en la iteración seguiremos usando el mismo término asociado al valor actual del gradiente, pero incorporaremos ahora un término adicional (precisamente el término de momentum) que tendrá en cuenta las variaciones del gradiente en iteraciones anteriores.
Ventajas del Gradiente Descendente con momentum
El uso del momentum logra “suavizar” la trayectoria del algoritmo al momento del entrenamiento. Y al tener menos oscilaciones en general se logra acelerar el proceso de entrenamiento, es decir lograr entrenar el modelo con una menor cantidad de iteraciones.
Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Conclusión
Muy bien, acabamos de ver cómo usar el principio de la media móvil en el algoritmo del Gradiente Descendente con Momentum para, en términos generales, mejorar el proceso de entrenamiento definiendo trayectorias más suaves hasta llegar al mínimo global de la pérdida.
En la próxima lección hablaremos de RMSPROP, otra variante del algoritmo clásico del Gradiente Descendente visto inicialmente.