11 - Análisis descriptivo y exploratorio
Lección 11 del curso Introducción a la Ciencia de Datos.
Tabla de contenido
Introducción
En la lección anterior vimos un ejemplo práctico de pre-procesamiento de datos y con ello culminamos esa sección del curso en donde hablamos de todo lo relacionado con los datos.
En esta tercera sección del curso nos enfocaremos en las diferentes técnicas que se usan para el análisis de datos y en particular en esta lección iniciaremos con las dos técnicas que casi siempre estarán presentes en cualquier proyecto de Ciencia de Datos: el análisis descriptivo y el análisis exploratorio.
Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Análisis descriptivo vs. Análisis exploratorio
El análisis descriptivo usa lo que se conoce como la estadística descriptiva para resumir los datos, teniendo en cuenta el problema a resolver. Este es el análisis más básico que podemos realizar al analizar nuestros datos.
Por su parte, el análisis exploratorio de los datos va un paso más allá del análisis descriptivo. En este caso usa el análisis descriptivo, la visualización y, algo importantísimo, la creatividad y experiencia del Científico de Datos para entender los datos y comenzar a extraer pistas que permitan resolver el problema.
En ambos casos es importante aclarar que estos análisis se enfocan en responder a la pregunta ¿qué? Es decir intentan determinar qué características tienen nuestros datos.
Ejemplo práctico
Hagamos un ejemplo práctico para entender las anteriores definiciones (el set de datos usado en este ejemplo se puede descargar del enlace que se encuentra en esta lección).
Volvamos al set de datos que relacionaba el consumo de alcohol en diferentes países con la cantidad de muertes. Y recordemos que el problema a resolver es determinar si existen relaciones entre las diferentes causas de muerte y el consumo de alcohol.
Análisis descriptivo
Si partimos del set de datos pre-procesado podemos realizar un primer análisis descriptivo, calculando por ejemplo medidas centrales y de dispersión (como la media y la desviación estándar) para describir algunas características básicas de nuestros datos.
Además podemos usar herramientas gráficas como los histogramas y observar que la mayor parte de las muertes asociadas a problemas del corazón están entre 140 y 210 mientras que la mayor parte de las muertes asociadas a problemas de hígado están entre 1 y 23.
Análisis exploratorio
Como lo mencionábamos anteriormente, el análisis exploratorio va un paso más allá del análisis descriptivo.
Es decir que nuevamente recurriremos a herramientas estadísticas y de visualización pero un poco más elaboradas y dependiendo de nuestra creatividad y experiencia, tendremos que combinar dichas herramientas para comenzar a extraer información adicional que pueda dar respuesta a nuestro problema.
Por ejemplo, podemos:
- Realizar un gráfico de barras para analizar la distribución del consumo de alcohol por categoría
- Realizar gráficos de barras comparando el conteo de muertes por diferentes causas con los niveles de consumo
- Realizar un análisis de correlación para determinar si existe correlación lineal entre esas dos variables
Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Conclusión
Muy bien, con este sencillo ejemplo práctico hemos visto en qué consisten el análisis descriptivo y el análisis exploratorio de los datos y además hemos comenzado a ver la importancia de conocer conceptos de probabilidad y estadística y de herramientas como la visualización de datos e incluso la necesidad de desarrollar habilidades de programación como Científicos de Datos.
Y una conclusión importante del análisis que acabamos de hacer es que en ningún caso estamos intentando explicar el porqué del comportamiento de los datos. Simplemente estamos observando los resultados y las gráficas obtenidas para describir qué es lo que está sucediendo con nuestros datos.
En la siguiente lección nos enfocaremos en el análisis explicativo que, como su nombre lo indica, intenta precisamente explicar las razones del comportamiento observado en los datos.