6 - Proyecto: reducción de dimensionalidad con Análisis de Componentes Principales

Diciembre 28, 2023 por Miguel Sotaquirá

Lección 6 del curso Probabilidad Nivel Avanzado.

En la lección anterior vimos una explicación detallada del algoritmo de Análisis de Componentes Principales, la técnica de reducción de dimensionalidad más usada en Ciencia de Datos y Machine Learning.

En esta lección desarrollaremos un proyecto donde pondremos en práctica todos estos conceptos para resolver un problema real.

En particular tomaremos un set de datos que contiene información asociada al precio de varios inmuebles para, después de un análisis exploratorio de los datos y de un pre-procesamiento de los mismos, usar el PCA (o Análisis de Componentes Principales) para reducir la dimensionalidad de este set de datos.

Suscríbete y accede al código fuente y al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

¡Muy bien! acabamos de ver todos los elementos prácticos que debemos tener en cuenta cuando queremos hacer uso del Análisis de Componentes Principales al momento de procesar un set de datos.

Es importante tener en cuenta que, además de las fases de Análisis Exploratorio y de Pre-procesamiento (presentes en todos los proyectos de Ciencia de Datos y Machine Learning), en el caso del análisis de componentes principales resulta clave poder realizar la estandarización de los datos para eliminar los efectos de escala al momento de obtener los componentes principales.

Adicionalmente, vimos que a pesar de todo el componente matemático que está detrás del PCA, realmente la implementación computacional es muy sencilla. Al usar la librería Scikit-Learn podemos llevar a cabo la reducción de dimensionalidad ¡con tan sólo dos líneas de código!

Así que en este punto ya hemos culminado el segundo módulo de este curso.

En el siguiente módulo nos enfocaremos en otra familia de modelos de Machine Learning muy usada al momento de estimar la distribución de probabilidad de un set de datos o al realizar algo que se conoce como el clustering (o agrupamiento): los Modelos de Mezcla Gaussiana.

Y en la próxima lección comenzaremos entendiendo qué son y para qué sirven estos Modelos de Mezcla Gaussiana.

Ver todas las lecciones de este curso