13 - Comparación de datos categóricos vs. numéricos

Lección 13 del curso Estadística Descriptiva.

En la lección anterior vimos herramientas como el uso de tablas de contingencia y los gráficos de barras agrupadas y apiladas para realizar la comparación de pares de variables categóricas vs. variables categóricas.

En esta lección veremos las principales herramientas que nos permiten comparar una variable categórica con una variable numérica.

Y la idea será bastante sencilla, pues como lo veremos en un momento, haremos uso de herramientas vistas anteriormente para el análisis de variables numéricas (como los gráficos de caja (o boxplots), los histogramas o los gráficos de densidad) y veremos como aprovechar estas herramientas para poder comparar una variable numérica con una categórica.

Así que comenzaremos viendo el principio de comparación y luego veremos un ejemplo detallado de análisis exploratorio de datos con estas herramientas.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien, acabamos de ver las principales herramientas que nos permiten realizar el análisis bivariado entre pares de variables numéricas y categóricas.

Y el principio de comparación es sencillo: en un eje del gráfico ubicamos los niveles de la variable categórica y por cada nivel mostramos la distribución de la variable numérica en el segundo eje.

Y la forma más recomendada para realizar esta comparación (en términos de código y de interpretación) es con el uso de los gráficos de caja (o boxplots). Aunque otra alternativa similar es el uso de gráficos de violín.

Además, podemos considerar otras dos alternativas como el uso de histogramas o gráficos de distribución, que son equivalentes pero que tienen la desventaja de no ser fáciles de interpretar cuando las distribuciones de la variable numérica, para cada nivel en la variable categórica, se solapan.

Así que en este punto sólo nos resta explorar algunas herramientas que nos permiten realizar la comparación de múltiples variables (es decir más de 2 variables de forma simultánea), lo que se conoce como el análisis multivariado y que será el tema de la próxima (y última) lección del curso.

Ver todas las lecciones de este curso