9 - Pre-procesamiento de datos

Lección 9 del curso Introducción a la Ciencia de Datos.

Introducción

En la lección anterior vimos las diferentes alternativas para el almacenamiento de los datos que van desde las más simples como el uso de archivos sofisticados hasta las más complejas como los lagos de datos (o data lakes).

Pero en la práctica los datos no tienen un comportamiento ideal pues pueden estar incompletos o tener valores inadecuados o puede haber otros factores que nos impidan comenzar a realizar el análisis.

El pre-procesamiento nos permite manejar este tipo de situaciones y preparar los datos para que puedan ser posteriormente analizados. Así que en esta lección hablaremos en detalle de las diferentes técnicas de pre-procesamiento convencionalmente utilizadas.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

La limpieza de datos

De esta fase ya hablamos cuando discutimos el ciclo de vida de un proyecto en Ciencia de Datos y de hecho es es una de las principales fases del pre-procesamiento y generalmente es la que requiere más tiempo.

Entre las situaciones más comunes que debemos abordar durante la limpieza de datos, para datos estructurados, tenemos:

A pesar de que es el proceso que más tiempo puede tomar, pues algunos elementos se pueden semi-automatizar pero otros deben ser realizados manualmente, existen adicionalmente otras fases que hacen parte del pre-procesamiento de los datos, de las cuales hablaremos a continuación.

Integración de los datos

Hace referencia a que los datos no siempre provienen de una sola fuente y para facilitar el análisis deberíamos combinarlos.

Y acá nos podemos enfrentar a diferentes retos, por ejemplo como conflictos en:

Reducción de los datos

Consiste en determinar si todas las columnas de nuestro dataset contienen información relevante para el problema que queremos resolver, o si por el contrario algunas de ellas podrían ser eliminadas sin pérdida de información.

Discretización

Dependiendo de nuestro problema podríamos intentar tomar datos numéricos continuos o discretos podríamos definir intervalos para esos valores y convertirlos a un tipo de dato que facilite su análisis. Esto se conoce como discretización.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Muy bien ya hemos visto de forma general algunas de las técnicas más comunes de pre-procesamiento de los datos, aunque el abanico es mucho más amplio pues cada proyecto tendrá sus particularidades y además podemos incluso tener datos no estructurados que requieren técnicas mucho más sofisticadas.

Así que para entender mejor estas técnicas usadas comúnmente, en la próxima lección desarrollaremos un ejemplo práctico de pre-procesamiento de datos.

Ver todas las lecciones de este curso