7 - Imputación multivariada

Mayo 21, 2024 por Miguel Sotaquirá

Lección 7 del curso Series de Tiempo: Pre-procesamiento.

En la lección anterior vimos en detalle el principio de funcionamiento de las principales técnicas de imputación univariada usadas en el manejo de datos faltantes en Series de Tiempo. Y además vimos cómo implementar estas técnicas con ayuda de las librerías Pandas y Scikit-Learn.

En esta lección veremos cómo usar la información de múltiples variables para completar los datos faltantes en una Serie de Tiempo, lo que se conoce precisamente como imputación multivariada.

En particular veremos los dos métodos más usados:

Imputación con modelos de regresión de Machine Learning: usada cuando el dataset contiene múltiples variables y una de ellas contiene datos faltantes. En este caso podemos usar IterativeImputer de Scikit-Learn
Imputación MICE (Multiple Imputation by Chained Equations): usada cuando el dataset contiene múltiples variables y a la vez varias de ellas contienen datos faltantes. En este caso podemos usar MICE de la librería “statsmodels”.

Al final veremos por qué son métodos más robustos que los métodos de imputación univariada vistos en la lección anterior y de igual forma veremos las situaciones en las que se sugiere usarlos.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien, acabamos de ver en detalle en qué consisten los métodos de imputación por regresión y MICE que nos permiten realizar la imputación multivariada de datos faltantes en Series de Tiempo.

En últimas se trata de métodos mucho más robustos que los métodos univariados vistos en la lección anterior y sugiero usarlos cuando tengamos grandes bloques de datos faltantes consecutivos dentro de la Serie de Tiempo, pues las imputaciones generadas por estos dos métodos son más consistentes con los patrones de variación presentes en la Serie.

En la próxima lección nos enfocaremos en el tercer grupo de técnicas de manejo de datos faltantes en Series de Tiempo, así que hablaremos en detalle de la imputación con interpolación.

Ver todas las lecciones de este curso