3.15 - GoogleNet y ResNet

Lección 15 de la sección “Redes Convolucionales” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos cómo usar VGG-16 y la transferencia de aprendizaje en la clasificación de imágenes, y entendimos el impresionante potencial que estas Redes Convolucionales profundas tienen en el campo de la visión artificial.

En esta lección hablaremos GoogLeNet y ResNet, otras dos arquitecturas aún más impresionantes que han logrado superar al ser humano en estas tareas de clasificación y que en la actualidad son un referente en este campo de la visión artificial.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

GoogLeNet

Esta arquitectura fue desarrollada en el año 2014 por investigadores de Google, y alcanza una exactitud top-5 igual al 7% con el set ImageNet, superando con esto a sus antecesoras (AlexNet y VGGNet).

Esta red usa la misma filosofía de VGGNet y AlexNet, es decir se basa en bloques de procesamiento repetitivos. Sin embargo, en este caso se enfoca en usar el tamaño más adecuado del kernel o filtro para el procesamiento de las imágenes.

Para ello hace uso del bloque inception que combina kernels de diferentes tamaños para procesar una misma imagen. Con esto, a la salida de este bloque se obtiene un volumen procesado que contendrá características a diferentes resoluciones.

ResNet

Esta arquitectura fue desarrollada en el año 2015 por investigadores de Microsoft, y alcanza un desempeño top-5 del 3.6% con ImageNet, muy superior incluso a GoogLeNet. De hecho esta fue la primera arquitectura que logró superar el desempeño del ser humano en la misma tarea de clasificación y con el mismo set de datos.

Esta arquitectura se enfoca en el problema de los gradientes que explotan y que se desvanecesn y para ello usa un bloque conocido con el nombre de residual (de ahí el nombre de la arquitectura) que provee una ruta alterna para el cálculo de los gradientes durante el entrenamiento, minimizando así este problema.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Con GooLeNet y ResNet tenemos todos los elementos fundamentales y las arquitecturas básicas para abordar diferentes tareas de procesamiento de imágenes y visión artificial usando Redes Convolucionales.

Así que en la próxima lección desarrollaremos la tercera práctica de esta sección del curso, en donde resolveremos un problema de segmentación de imágenes usando Redes Convolucionales.

Ver todas las lecciones de este curso