3 - La matriz de covarianza

Diciembre 21, 2023 por Miguel Sotaquirá

Lección 3 del curso Probabilidad Nivel Avanzado.

En la lección anterior hablamos de la correlación (que también se conoce como el coeficiente de correlación de Pearson) que es un coeficiente que permite medir el grado de variación que hay entre dos variables aleatorias.

A pesar de que la covarianza (de la cual hablamos en la primera lección) también se puede usar para medir este grado de variación, la desventaja es que es dependiente de la escala de los datos.

Sin embargo, esta covarianza sigue siendo un concepto clave que sirve como base para la construcción de un concepto del cual hablaremos en esta lección que es la matriz de covarianza y que a la vez es el fundamento de diferentes algoritmos de Machine Learning.

Así que a continuación vamos a entender este sencillo concepto de la matriz de covarianza, veremos un sencillo ejemplo de cálculo y mencionaremos algunos de los principales algoritmos y métodos del Machine Learning en donde se hace uso precisamente de este concepto.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Bien, ya tenemos claro este sencillo concepto de la matriz de covarianza que es simplemente una forma de representar de manera organizada los valores de varianzas y covarianzas de todas las variables que estemos considerando en nuestro problema.

Pero además de esta representación la matriz de covarianza es importante porque contiene de manera condensada la información de la variabilidad que existe entre los diferentes pares de variables que conforman nuestro set de datos.

Y esto resulta clave pues a partir de esta matriz se puede extraer información relevante de nuestro set de datos y esto es clave como punto de partida para diferentes algoritmos y técnicas de Machine Learning, como por ejemplo los algoritmos de análisis de componentes principales y los modelos de Naive Bayes, entre otros.

Así que con esto cerramos este primer módulo del curso donde hemos visto tres sencillos conceptos: la covarianza, la correlación y la matriz de covarianza, que en conjunto permiten cuantificar el grado de relación entre diferentes pares de variables de nuestros sets de datos.

En el segundo módulo nos enfocaremos en un algoritmo que hace uso de la matriz de covarianza para realizar algo que se conoce como la reducción de dimensionalidad, una técnica muy usada en Ciencia de Datos y Machine Learning.

Así que hablaremos del Análisis de Componentes Principales. Y específicamente en la próxima lección comenzaremos dando una introducción a este algoritmo lo que nos permitirá entender qué es y para qué sirve el análisis de componentes principales.

Ver todas las lecciones de este curso