6 - Imputación univariada

Lección 6 del curso Series de Tiempo: Pre-procesamiento.

En la lección anterior vimos cómo realizar el manejo de marcas de tiempo faltantes en una Serie de Tiempo, que es el primer paso que siempre debemos realizar al manejar datos faltantes en este tipo de datos.

En esta lección veremos la primera técnica de manejo de observaciones faltantes en una Serie de Tiempo: la imputación univariada.

Recordemos, de la lección anterior, que el manejo de datos faltantes se reduce esencialmente a dos opciones:

Así que en esta lección nos enfocaremos en la imputación univariada, donde este último término se refiere a que usaremos la propia observación que contiene registros incompletos para determinar los valores faltantes.

El hecho de usar la propia observación implica que usaremos sólo una variable para realizar la imputación: de allí el término “imputación univariada”.

En particular veremos dos maneras de hacer esta imputación univariada: usando la librería Pandas y usando la librería Scikit-Learn.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien, acabamos de ver las diferentes técnicas de imputación univariada que podemos llevar a cabo haciendo uso de las librerías Pandas y Scikit-Learn.

En resumen podemos imputar los datos con la media o la mediana de la Serie, con su valor más frecuente o con las técnicas de llenado hacia adelante o hacia atrás.

Como vimos en los ejemplos anteriores, en realidad no existe un método ideal que funcione adecuadamente para cualquier tipo de Serie de Tiempo y en la práctica tendremos que elegir el método de imputación univariada dependiendo de las características propias de la Serie que estemos procesando.

Sin embargo es importante tener en cuenta que cuando tenemos bloques con demasiadas observaciones faltantes, en general ningún método de imputación resultará siendo adecuado. En este caso lo ideal sería lograr recolectar más datos para garantizar que procesaremos una Serie con la menor cantidad posible de datos faltantes.

Así que con esto ya estamos listos para ver un segundo conjunto de métodos de imputación un poco más sofisticados. Entonces en la próxima lección veremos las diferentes técnicas de imputación multivariada que podemos usar para realizar el manejo de observaciones faltantes en Series de Tiempo.

Ver todas las lecciones de este curso