2 - La correlación

Lección 2 del curso Probabilidad Nivel Avanzado.

En la lección anterior vimos qué es la covarianza, que en últimas permite cuantificar el grado de relación que existe entre dos variables aleatorias.

Además de esto vimos sencillos ejemplos de cálculo y vimos cómo el valor de la covarianza resultante nos permite determinar si las variables tienen una relación lineal positiva, negativa o si no tienen relación alguna.

Sin embargo, vimos una limitación de esta covarianza y es que es directamente dependiente de la escala que tengan las variables a comparar. Esto quiere decir que entre mayor sea la escala de los datos mayor será el valor de la covarianza.

Y esto no es conveniente, pues un mayor valor de covarianza no nos indica claramente si los datos están más o menos relacionados.

En esta lección hablaremos de la correlación, una operación muy similar a la covarianza pero que es independiente de la escala de los datos y que, por tanto, resulta más adecuada para medir ese grado de similitud.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Bien, acabamos de ver el sencillo concepto de la correlación que simplemente nos permite medir el grado de relación que hay entre dos variables.

La ventaja con respecto a la covarianza es que en la correlación tenemos resultados en una escala de -1 a 1. Es decir que la correlación no depende de la escala de los datos y nos permite interpretar los resultados de manera más sencilla.

Este concepto de la correlación es muy usado en técnicas como la selección de características (que consiste en seleccionar cuáles variables resulta más adecuado presentar a un modelo predictivo en Machine LEarning).

También es una herramienta muy usada cuando hacemos análisis exploratorio de datos, porque nos permite identificar el grado de relación que existe entre pares de variables en nuestro set de datos.

En la próxima lección retomaremos el concepto de covarianza y veremos en qué consiste la matriz de covarianza, que resulta útil cuando queremos cuantificar el grado de variación que existe entre múltiples pares de variables y que es la base de diferentes algoritmos de Machine Learning.

Ver todas las lecciones de este curso