5 - Medidas de variabilidad

Lección 5 del curso Estadística Descriptiva.

En la lección anterior hablamos de la media, la mediana y la moda que son las principales medidas de tendencia central que podemos usar comúnmente para describir datos numéricos o categóricos.

En esta lección veremos otro grupo de medidas que podemos usar para caracterizar y describir nuestros datos y que son una manera de cuantificar qué tanto se alejan del valor central de la variable. Hablaremos entonces de las medidas de variabilidad o dispersión.

De nuevo, comenzaremos viendo la definición de cada una de estas medidas así como un sencillo ejemplo de implementación y al final de la lección veremos cómo usar estas medidas de variabilidad de forma práctica al analizar un set de datos y con ayuda de la librería Pandas.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien, acabamos de hablar de las dos principales medidas de variabilidad usadas para describir datos numéricos: la desviación estándar y el rango intercuartiles.

En últimas, la elección que hagamos de cuál medida utilizar dependerá de las características de nuestros datos: si estos tienen una distribución normal y no tienen valores extremos podemos usar cualquiera de las dos. Pero si la distribución es NO normal y hay valores extremos, entonces el uso del rango intercuartiles es una medida más robusta en comparación con la desviación estándar.

Así que con esto culminamos este segundo módulo del curso, donde hemos visto dos primeras formas de describir nuestros datos usando las medidas de tendencia central y de variabilidad o dispersión.

Sin embargo, estas medidas nos arrojan tan sólo un número que cuantifica el comportamiento global de nuestros datos pero no nos permite tener una idea lo suficientemente detallada del comportamiento de los mismos.

Así que en el siguiente módulo nos enfocaremos en una de las fases clave en el Análisis Exploratorio de Datos: el uso de herramientas para el análisis univariado de variables numéricas (es decir para analizar cada variable de nuestros datos por separado).

Y específicamente comenzaremos viendo cómo usar los gráficos de caja (o boxplots) para visualizar la manera como están distribuidos nuestros datos.

Ver todas las lecciones de este curso