10 - Ejemplo práctico: pre-procesamiento de datos

Lección 10 del curso Introducción a la Ciencia de Datos.

Introducción

En la lección anterior hablamos de varias de las principales técnicas de pre-procesamiento de datos usadas en un proyecto de Ciencia de Datos.

En esta lección desarrollaremos un sencillo ejemplo práctico que nos permitirá ver en acción varias de las técnicas de pre-procesamiento discutidas en la lección anterior.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El problema del negocio

Supongamos que para este ejercicio nos interesa encontrar posibles relaciones entre diferentes causas de muerte y el consumo de alcohol.

Aunque en este ejercicio no resolveremos el problema, sí lo usaremos como guía para toda la etapa de pre-procesamiento de los datos.

El set de datos

El set de datos contiene información del consumo de alcohol per cápita para diferentes países del mundo, así como el número de muertes atribuidas a dicho consumo y el número de muertes asociadas a problemas cardiacos o del hígado.

Si estás suscrito a la Academia podrás descargar este set de datos en el enlace que se encuentra en esta misma lección.

Limpieza de los datos

Podemos ver que en Islandia e Israel tenemos valores negativos para el consumo de alcohol y el número de muertes, respectivamente. Debemos corregirlos pues estas cantidades numéricas no pueden ser negativas.

Además tenemos datos incompletos para Canadá y España los cuales podemos rellenar tomando el promedio de los valores conocidos para los restantes países.

Integración y transformación

Supongamos que tenemos datos para varias comunas de Chile. Podemos consolidar la información de estas comunas y representarla en la escala adecuada, para posteriormente integrarla al set de datos original.

Limpieza nuevamente

En el caso de Italia vemos un consumo de alcohol excesivamente alto, mientras que en el caso de Noruega uno excesivamente bajo. Estos datos se conocen como outliers (o valores extremos) y los debemos corregir antes de continuar con el pre-procesamiento.

Reducción

Podemos representar con menos decimales los valores en las columnas “Alcohol” e “Hígado”. En un caso de tener un set de datos mucho más extenso esta alternativa permitiría ahorrar espacio de almacenamiento.

Discretización

Finalmente podemos definir 4 rangos de consumo de alcohol (bajo, moderado, medio y alto) dependiendo de los valores encontrados en la columna “Alcohol”.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Con este sencillo ejemplo hemos visto varios de los pasos que usualmente se deben llevar a cabo en la etapa de pre-procesamiento de los datos.

Aunque tengamos en cuenta que en la práctica tendremos sets de datos mucho más complejos y que requeriremos herramientas más sofisticadas que el simple procesador de hojas de cálculo usado en este ejercicio.

Y con esto culminamos esta segunda sección del curso, en donde hablamos de todo lo relacionado con los datos.

Entonces, en la siguiente sección nos enfocaremos en todas las técnicas de análisis, comenzando con el análisis descriptivo y el análisis exploratorio de datos de las cuales hablaremos en la próxima lección.

Ver todas las lecciones de este curso