1 - Uniendo DataFrames
Lección 1 del curso Pandas Nivel Intermedio.
Introducción
En esta primera lección del curso veremos cómo usar el método join()
de Pandas, que nos permite combinar dos DataFrames horizontalmente (uno al lado del otro). El resultado de la combinación dependerá de la información contenida en cada DataFrame así como de la sintaxis usada.
¿Por qué es necesaria la combinación de datos estructurados?
En proyectos reales de Ciencia de Datos y Machine Learning, usualmente los datos no vienen organizados de manera ideal en una única tabla.
En la práctica la información muy probablemente es recolectada en múltiples tablas, cada una de las cuales contendrá parte de los datos, así que antes de analizar los datos y extraer información relevante es necesario combinar estos datos de alguna manera.
Y dependiendo de las características de nuestros datos y del tipo de análisis que queramos hacer, Pandas ofrece varias alternativas para realizar esta combinación.
En este primer módulo del curso nos enfocaremos en los tres métodos más usados: la unión (método join()
), la concatenación (función concat()
) y la fusión de datos (método merge()
).
El set de datos
Contenido exclusivo para suscriptores. Suscríbete para tener acceso a todos los cursos y material descargable de la Academia Online
Uso del método join
Veamos entonces cómo realizar la lectura de los sets de datos y las diferentes maneras de usar join
para combinar los DataFrames y extraer los resultados deseados.
Muy bien, acabamos de ver las diferentes formas de usar el método join
para la combinación de DataFrames.
En particular vimos cómo realizar la unión usando la sintaxis básica (con los argumentos lsuffix
y rsuffix
) así como una forma más avanzada que permite realizar la combinación usando los valores de una columna en particular.
En últimas, el resultado obtenido tras el uso de join
dependerá tanto de la sintaxis usada como de las características de los DataFrames que estemos combinando.
Podemos entonces finalizar resaltando las principales características del método join
:
- Permite realizar la unión de dos DataFrames en sentido horizontal
- Realiza la unión tomando como referencia los índices de cada DataFrame o una columna en particular
- Al realizar la unión alinea automáticamente los datos con base en el índice/columna
Y además cabe aclarar que es un método propio de los DataFrames de Pandas, lo cual quiere decir que no está disponible en el caso de las Series (pues en este caso no tiene sentido realizar este tipo de unión).
En la próxima lección veremos una segunda alternativa para la combinación de DataFrames haciendo uso de la función concat()
que nos permite combinar DataFrames tanto vertical como horizontalmente.