5 - Análisis de Componentes Principales: explicación detallada

Diciembre 26, 2023 por Miguel Sotaquirá

Lección 5 del curso Probabilidad Nivel Avanzado.

En la lección anterior vimos qué es y para qué sirve el análisis de componentes principales que en esencia es la técnica de reducción de dimensionalidad más usada en Ciencia de Datos y Machine Learning.

Así que en esta lección veremos todos los elementos matemáticos que permiten realizar precisamente esta reducción de dimensionalidad.

Y para lograr esto retomaremos varios conceptos vistos no sólo en este curso (como por ejemplo la matriz de covarianza) sino herramientas vistas en los cursos de Álgebra Lineal y de Cálculo para Ciencia de Datos y Machine Learning.

Así que en el primer video de esta lección comenzaremos haciendo un muy breve repaso de los conceptos esenciales de Álgebra Lineal necesarios para comprender el funcionamiento del Análisis de Componentes principales. Entonces hablaremos específicamente de la magnitud de un vector y de los vectores unitarios, de la proyección de un vector y de los valores y vectores propios de una matriz:

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Además de los conceptos de Álgebra Lineal que acabamos de repasar, para construir la teoría del Análisis de Componentes principales requerimos algunas herramientas vistas en el curso de Cálculo para Ciencia de Datos y Machine Learning.

Así que en este segundo video vamos a repasar el concepto de derivada y su relación con el máximo de una función. De igual forma introduciremos dos nuevos conceptos: la derivada de una matriz y los multiplicadores de Lagrange:

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien, en este punto ya tenemos todos los fundamentos de Álgebra Lineal, Cálculo y Probabilidad necesarios para entender el componente matemático del Análisis de Componentes Principales.

Así que ya podemos entrar de lleno en los detalles de esta técnica. En el siguiente video comenzaremos entendiendo el problema que nos permite resolver el PCA y daremos además una formalización matemática a este problema:

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Perfecto, ya hemos definido matemáticamente el problema que queremos resolver haciendo uso del Análisis de Componentes Principales.

En esencia lo que queremos es encontrar los componentes de un nuevo espacio vectorial que nos permitan proyectar nuestro set de datos (en el espacio original) pero maximizando a su vez la varianza de dichas proyecciones.

Con esto en mente ya podemos ver todo el desarrollo matemático que nos permitirá ver paso a paso cómo el Análisis de Componentes Principales permite resolver este problema y lograr reducir la dimensionalidad de nuestros datos. Veamos todos estos detalles en el siguiente video:

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Wow!!! como acabamos de ver el Análisis de Componentes Principales tiene un alto componente matemático que combina varios de los conceptos que hemos visto en diferentes cursos acá en la Academia.

En esencia el PCA nos permite obtener los componentes del nuevo espacio vectorial a partir de la matriz de covarianza y del uso de los valores y vectores propios de dicha matriz.

Y al organizar de manera descendente dichos valores propios (y sus vectores asociados) tendremos en últimas una serie de componentes organizados en orden de importancia: de aquel que contiene la mayor parte a aquel con la menor parte de la información proveniente del set de datos original.

Y el nombre que damos a esta información que preserva cada componente es el de “varianza explicada”. Así que tras realizar la descomposición usando el PCA podemos escoger sólo una cierta cantidad de componentes principales que nos permitan preservar un cierto porcentaje de la varianza original, con lo cual lograremos reducir la dimensionalidad del set de datos.

En este punto ya tenemos todos los elementos que hacen parte del Análisis de Componentes Principales. Sin embargo, es clave que nos alejemos un poco de todos los detalles matemáticos que acabamos de ver y que nos enfoquemos en los principales elementos a tener en cuenta cuando hagamos uso práctico del PCA.

Así que en el siguiente video (¡el último de esta lección!) analizaremos un sencillo ejemplo que nos permitirá resumir los principales elementos a tener en cuenta al momento de realizar el análisis de compontenes principales:

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

¡Excelente! Y con esto ya conocemos todos los detalles matemáticos que conforman este método de Análisis de Componentes Principales y hemos entendido los pasos que usualmente estarán involucrados cuando queremos aplicar este análisis a un set de datos.

Así que ya estamos listos para poner en práctica todo lo aprendido en esta lección. Entonces, en la próxima lección veremos un proyecto en donde llevaremos a cabo la reducción de dimensionalidad de un set de datos usando este Análisis de Componentes Principales.

Ver todas las lecciones de este curso