2.25 - Aspectos prácticos para la implementación de Redes Neuronales

Julio 10, 2021 por Miguel Sotaquirá

Lección 25 de la sección “Redes Neuronales” del curso Fundamentos de Deep Learning con Python.

Tabla de contenido

Introducción

En la lección anterior hablamos del algoritmo de optimización Adam, que junto con los algoritmos de gradiente descendente estocástico y mini-batch, gradiente descendente con momentum, RMSPROP y las técnicas de regularización vistas anteriormente, completan los elementos fundamentales sobre los cuales se construye buena parte de la teoría del Deep Learning.

En esta lección veremos algunas sugerencias adicionales que resultan muy útiles al momento de implementar y entrenar diferentes tipos de Redes Neuronales.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Gradientes que se desvanecen y que explotan

Cuando hablamos del algoritmo de backpropagation vimos que en el cálculo de los gradientes se requiere hacer uso de la regla de la cadena, lo cual implica el producto de múltiples derivadas.

En una Red Neuronal profunda se tendrán muchas multiplicaciones de este estilo y esto puede dar origen a dos fenómenos:

Si las derivadas son “pequeñas” sus productos se acercarán a cero y tendremos lo que se conoce como gradientes que se desvanecen (vanishing gradients)
Si por el contrario las derivadas son “grandes” sus productos tenderán a infinito y tendremos lo que se conoce como gradientes que explotan (exploding gradients)

Cualquiera de estos dos fenómenos afecta el proceso de entrenamiento de la Red Neuronal.

En el caso de los gradientes que desvanecen podemos usar la función de activación ReLU en las capas ocultas para reducir este fenómeno, mientras que en el caso de los gradientes que explotan podemos usar técnicas de regularización o alternativas como el gradient clippping o el batch normalization para atenuar este efecto.

Escalamiento del dataset a la entrada

Otra sugerencia adicional es pre-procesar los sets de entrenamiento, prueba y validación para garantizar que cada dato esté en la misma escala, usando alternativas como la normalización o la estandarización.

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Muy bien, con todos estos elementos que hemos visto ¡ya estamos listos para desarrollar el proyecto final de esta sección del curso!

En la próxima lección veremos en detalle este proyecto, en donde implementaremos un modelo de predicción de riesgo de diabetes usando Redes Neuronales.

Ver todas las lecciones de este curso