1 - Uniendo DataFrames

Lección 1 del curso Pandas Nivel Intermedio.

Introducción

En esta primera lección del curso veremos cómo usar el método join() de Pandas, que nos permite combinar dos DataFrames horizontalmente (uno al lado del otro). El resultado de la combinación dependerá de la información contenida en cada DataFrame así como de la sintaxis usada.

¿Por qué es necesaria la combinación de datos estructurados?

En proyectos reales de Ciencia de Datos y Machine Learning, usualmente los datos no vienen organizados de manera ideal en una única tabla.

En la práctica la información muy probablemente es recolectada en múltiples tablas, cada una de las cuales contendrá parte de los datos, así que antes de analizar los datos y extraer información relevante es necesario combinar estos datos de alguna manera.

Y dependiendo de las características de nuestros datos y del tipo de análisis que queramos hacer, Pandas ofrece varias alternativas para realizar esta combinación.

En este primer módulo del curso nos enfocaremos en los tres métodos más usados: la unión (método join()), la concatenación (función concat()) y la fusión de datos (método merge()).

El set de datos

Contenido exclusivo suscriptores

Contenido exclusivo para suscriptores. Suscríbete para tener acceso a todos los cursos y material descargable de la Academia Online

Uso del método join

Veamos entonces cómo realizar la lectura de los sets de datos y las diferentes maneras de usar join para combinar los DataFrames y extraer los resultados deseados.

Muy bien, acabamos de ver las diferentes formas de usar el método join para la combinación de DataFrames.

En particular vimos cómo realizar la unión usando la sintaxis básica (con los argumentos lsuffix y rsuffix) así como una forma más avanzada que permite realizar la combinación usando los valores de una columna en particular.

En últimas, el resultado obtenido tras el uso de join dependerá tanto de la sintaxis usada como de las características de los DataFrames que estemos combinando.

Podemos entonces finalizar resaltando las principales características del método join:

Y además cabe aclarar que es un método propio de los DataFrames de Pandas, lo cual quiere decir que no está disponible en el caso de las Series (pues en este caso no tiene sentido realizar este tipo de unión).

En la próxima lección veremos una segunda alternativa para la combinación de DataFrames haciendo uso de la función concat() que nos permite combinar DataFrames tanto vertical como horizontalmente.

Ver todas las lecciones de este curso