3.2 - Retos del procesamiento de imágenes y limitaciones de las Redes Neuronales

Julio 10, 2021 por Miguel Sotaquirá

Lección 2 de la sección “Redes Convolucionales” del curso Fundamentos de Deep Learning con Python.

Tabla de contenido

Introducción

En la lección anterior vimos algunos aspectos generales de las Redes Convolucionales y su relación con el sistema de visión humano.

En esta lección veremos lo difícil que es lograr que un computador extraiga información relevante de una imagen y como las Redes Neuronales no son la arquitectura más adecuada para llevar a cabo esta tarea.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Una tarea “simple”: la detección de rostros

Veamos por ejemplo lo complejo que resulta para un computador llevar a cabo una tarea que para nosotros los seres humanos es relativamente “simple”: dada una imagen determinar si contiene un rostro y si es así en qué región de la imagen se encuentra (lo que se conoce como detección de rostros).

Para entender esto debemos tener en cuenta que una imagen se representa en un computador como un arreglo tridimensional, donde cada pixel tiene un valor de intensidad asociado a un color (que puede ser rojo, verde o azul).

En el procesamiento de imágenes convencional se usan múltiples filtros o kernels que se crean a la medida y permiten detectar ciertas características dentro de la imagen.

El problema de este enfoque es que estos kernels no permiten generalizar: funcionan bien para unas cuantas imágenes, pero cuando llevamos esto al mundo real generalmente dejan de hacerlo.

Así que realizar esta detección de rostros no resulta siendo una tarea trivial para un computador.

Las limitaciones de las Redes Neuronales

Podríamos pensar que las Redes Neuronales, como las vistas en la sección anterior, serían una solución adecuada. Sin embargo existen algunos inconvenientes:

Para procesar una imagen el tamaño de la red requerido debería ser inmenso
Antes de que sea procesada la imagen debe ser “aplanada”, es decir convertida a un vector. Esto hace que la información espacial se pierda completamente, lo que empeora el desempeño de la Red Neuronal.

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien, ya hemos visto los retos que implica el procesamiento computacional de imágenes, así como las desventajas de usar las Redes Neuronales para esta tarea.

Así que a partir de la próxima lección comenzaremos a ver cómo las Redes Convolucionales intentan resolver este problema.

En particular, comenzaremos hablando del filtro o kernel, un elemento esencial en cualquier Red Convolucional.

Ver todas las lecciones de este curso