3.11 - LeNet

Lección 11 de la sección “Redes Convolucionales” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos la arquitectura de una Red Convolucional, y entendimos su relación con las [Redes Neuronales] vistas en la sección anterior.

En esta lección veremos en detalle cómo funciona LeNet, la primera Red Convolucional que logró resolver de manera exitosa un problema de visión artificial: la clasificación de dígitos escritos a mano.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Generalidades de LeNet

Esta Red Convolucional fue concebida en 1998 por Yann LeCun, en ese momento investigador de los laboratorios AT&T y quien actualmente dirige el área de Inteligencia Artificial en Facebook/Meta.

El aporte más significativo de esta red es que logró de manera efectiva resolver un problema de visión artificial, motivo por el cual se convirtió en la precursora de todas las Redes Convolucionales existentes en la actualidad.

El problema a resolver

El objetivo era crear un modelo capaz de clasificar los dígitos presentes en envíos postales y que contenían el código ZIP de las diferentes regiones en Estados Unidos.

Para ello se recolecto una base de datos (MNIST) consistente en dígitos del 0 al 9 escritos a mano por diferentes personas. En total este set contiene 60.000 ejemplos de entrenamiento y 10.000 de validación.

Cada dato del set contiene uno de estos dígitos, y está almacenada como una imagen en escala de gris de tamaño 28x28.

Una vez entrenada y validadad, LeNet logró clasificar los dígitos de MNIST con una exactitud del 99.05%, es decir ¡menos de 1 error por cada 100 dígitos clasificados!

La arquitectura

La red LeNet tiene dos partes: un codificador convolucional conformado por dos capas convolucionales y con pooling, seguidas por una pequeña Red Neuronal con 3 capas.

Las capas convolucionales se encargan de aprender a extraer características de las imágenes y de obtener una representación compacta de las mismas, mientras que la Red Neuronal se encarga de compactar aún más esta representación y de realizar la clasificación de cada imagen en una de las 10 diferentes categorías (los dígitos del 0 al 9).

Un aspecto interesante es la lógica usada en la construcción de LeNet: la tendencia es que progresivamente se reducen las dimensiones espaciales (alto y ancho) de los volúmenes procesados en cada capa, pero a la vez se incrementa la profundidad de dichos volúmenes (es decir el número de características extraídas en cada capa). Este mismo principio de funcionamiento ha sido replicado por la mayor parte de las Redes Convolucionales usadas en la actualidad.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Ya tenemos claro el funcionamiento de LeNet y con esto ya estamos listos para poner en práctica lo aprendido hasta el momento acerca de las Redes Convolucionales.

Así que en la próxima lección desarrollaremos la primera práctica de esta parte del curso, en donde realizaremos la clasificación de imágenes usando esta red LeNet.

Ver todas las lecciones de este curso