17 - Proyecto final: análisis de Series de Tiempo (Calentamiento Global) - Parte 2: recolección de los datos

Lección 17 del curso Pandas Nivel Avanzado.

En la lección anterior vimos el planteamiento del problema de este proyecto final de Análisis de Series de Tiempo, donde nos enfocaremos en intentar responder varias preguntas asociadas al fenómeno del calentamiento global tomando como base los datos.

En esta segunda parte del proyecto nos enfocaremos precisamente en una de las fases esenciales de este proyecto: la recolección de los datos.

Así que iremos a diferentes fuentes disponibles en Internet para recolectar datos asociados a variables que miden bien sea el calentamiento global o factores que han dado origen al mismo.

En particular, para el fenómeno del calentamiento global tenemos dos tipos de variables de interés:

  1. La variable dependiente será la temperatura (medida en la superficie de la tierra, las masas de agua o de forma combinada). La idea es mirar el comportamiento de esta variable a lo largo del tiempo.
  2. Las variables independientes que, según organizaciones como la Comisión Europea o las Naciones Unidas, pueden ser la quema de combustibles fósiles y la consecuente presencia en la atmósfera de derivados de estas quemas (como el dióxido de carbono, el metano y el oxido nitroso, entre otros) y el crecimiento poblacional, entre otras.

Así que teniendo claras estas variables veamos cómo realizar la recolección de los datos:

Contenido exclusivo suscriptores

Suscríbete y accede al código fuente y al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Bien, acabamos de ver una de las fases que más tiempo nos tomará en este proyecto: la recolección de los datos.

En particular, hemos usado repositorios online (como el de Berkeley Earth, las Naciones Unidas y la Agencia Ambiental Europea) para recolectar directamente desde estas fuentes Series de Tiempo asociadas al registro histórico de los niveles de temperatura en la superficie de la tierra, población a nivel mundial y niveles de concentración en la atmósfera de gases como el CO2.

Esta recolección de los datos era uno de los primeros retos de este proyecto. Sin embargo, como acabamos de ver en esta lección, estos datos no son ideales.

Por ejemplo, en el caso del CO2 no tenemos la información consolidada en una única Serie de Tiempo sino que en lugar de ello tenemos dos sets de datos, correspondientes a periodos de tiempo diferentes.

Por otra parte, en el caso de la temperatura no tenemos una medición directa de los valores promedios de temperatura desde el año 1750, sino que estos están calculados como diferencias con respecto al periodo 1951-1980.

Y en el caso de la Serie de Tiempo de población vemos que el set de datos es inmenso y contiene una gran cantidad de filas y de columnas, y no todas ellas resultarán relevantes para nuestro proyecto.

Así que en la próxima lección veremos cómo realizar la preparación de estos datos para cada Serie de Tiempo, la otra fase fundamental en este proyecto y que, a su vez, será la etapa más extensa.

Ver todas las lecciones de este curso