11 - Análisis descriptivo y exploratorio

Lección 11 del curso Introducción a la Ciencia de Datos.

Introducción

En la lección anterior vimos un ejemplo práctico de pre-procesamiento de datos y con ello culminamos esa sección del curso en donde hablamos de todo lo relacionado con los datos.

En esta tercera sección del curso nos enfocaremos en las diferentes técnicas que se usan para el análisis de datos y en particular en esta lección iniciaremos con las dos técnicas que casi siempre estarán presentes en cualquier proyecto de Ciencia de Datos: el análisis descriptivo y el análisis exploratorio.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Análisis descriptivo vs. Análisis exploratorio

El análisis descriptivo usa lo que se conoce como la estadística descriptiva para resumir los datos, teniendo en cuenta el problema a resolver. Este es el análisis más básico que podemos realizar al analizar nuestros datos.

Por su parte, el análisis exploratorio de los datos va un paso más allá del análisis descriptivo. En este caso usa el análisis descriptivo, la visualización y, algo importantísimo, la creatividad y experiencia del Científico de Datos para entender los datos y comenzar a extraer pistas que permitan resolver el problema.

En ambos casos es importante aclarar que estos análisis se enfocan en responder a la pregunta ¿qué? Es decir intentan determinar qué características tienen nuestros datos.

Ejemplo práctico

Hagamos un ejemplo práctico para entender las anteriores definiciones (el set de datos usado en este ejemplo se puede descargar del enlace que se encuentra en esta lección).

Volvamos al set de datos que relacionaba el consumo de alcohol en diferentes países con la cantidad de muertes. Y recordemos que el problema a resolver es determinar si existen relaciones entre las diferentes causas de muerte y el consumo de alcohol.

Análisis descriptivo

Si partimos del set de datos pre-procesado podemos realizar un primer análisis descriptivo, calculando por ejemplo medidas centrales y de dispersión (como la media y la desviación estándar) para describir algunas características básicas de nuestros datos.

Además podemos usar herramientas gráficas como los histogramas y observar que la mayor parte de las muertes asociadas a problemas del corazón están entre 140 y 210 mientras que la mayor parte de las muertes asociadas a problemas de hígado están entre 1 y 23.

Análisis exploratorio

Como lo mencionábamos anteriormente, el análisis exploratorio va un paso más allá del análisis descriptivo.

Es decir que nuevamente recurriremos a herramientas estadísticas y de visualización pero un poco más elaboradas y dependiendo de nuestra creatividad y experiencia, tendremos que combinar dichas herramientas para comenzar a extraer información adicional que pueda dar respuesta a nuestro problema.

Por ejemplo, podemos:

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Muy bien, con este sencillo ejemplo práctico hemos visto en qué consisten el análisis descriptivo y el análisis exploratorio de los datos y además hemos comenzado a ver la importancia de conocer conceptos de probabilidad y estadística y de herramientas como la visualización de datos e incluso la necesidad de desarrollar habilidades de programación como Científicos de Datos.

Y una conclusión importante del análisis que acabamos de hacer es que en ningún caso estamos intentando explicar el porqué del comportamiento de los datos. Simplemente estamos observando los resultados y las gráficas obtenidas para describir qué es lo que está sucediendo con nuestros datos.

En la siguiente lección nos enfocaremos en el análisis explicativo que, como su nombre lo indica, intenta precisamente explicar las razones del comportamiento observado en los datos.

Ver todas las lecciones de este curso