1 - Qué es Pandas y su importancia en la Ciencia de Datos y el Machine Learning

Lección 1 del curso Pandas Nivel Básico.

Introducción

En esta primera lección del curso vamos a entender qué es la librería Pandas, cómo se relaciona con otras librerías de Python, cuál es su importancia en la Ciencia de Datos y el Machine Learning, cuándo es recomendable usar esta librería y cuando no.

Video

En el canal de YouTube puedes ver el video completo de esta primera lección:

¿Qué es Pandas?

Pandas es una librería que nos permite crear, leer, guardar y manipular datos estructurados en Python.

¿Y qué son los datos estructurados? como lo vimos en el curso de Introducción a la Ciencia De Datos, en Ciencia de Datos y Machine Learning podemos tener dos tipos de datos: los estructurados y los no estructurados.

Los datos estructurados son aquellos que tienen un formato tabular, organizados en filas y columnas, como los que podemos encontrar en una hoja de cálculo, en un archivo CSV o en una base de datos.

Y los datos no estructurados, como su nombre lo indica, son datos que no tienen una estructura predefinida (es decir que no están en formato tabular), como las imágenes, el audio, el video y el texto, por ejemplo.

Pandas es entonces una librería que nos permite procesar el primer tipo de datos, aquellos que tienen una estructura en formato tabular.

Y cuando decimos “procesar” nos referimos, entre otras cosas, a:

Pandas y su relación con otras librerías de Python

Pandas es una librería que está desarrollada sobre el lenguaje de programación Python, así que un primer requisito para comenzar a usar esta librería es saber programar en este lenguaje. En la Academia Online están disponibles tres cursos de programación en Python: Python Nivel Básico, Python Nivel Intermedio y Python Nivel Avanzado.

Adicionalmente, por tratarse de una librería especializada en el procesamiento de datos estructurados, muchas de las operaciones implementadas en Python siguen la lógica de funcionamiento de Numpy, la librería para el procesamiento de arreglos. En la Academia Online también se encuentra disponible el curso Numpy para Ciencia de Datos y Machine Learning.

Además, con ayuda de Pandas podemos abordar problemas de Análisis de Datos y Análisis Exploratorio de Datos en nuestros proyectos de Ciencia de Datos y Machine Learning. Y esto muchas veces requiere el uso de herramientas de visualización de datos que en el fondo usan librerías como Matplotlib. Así que Matplotlib es también una librería de la cual depende Pandas. También, en la Academia Online está disponible el curso Matplotlib para Ciencia de Datos y Machine Learning.

Y por otra parte, además de las dependencias que acabamos de mencionar, Pandas puede interactuar con otras librerías de Ciencia de Datos y Machine Learning como Scikit Learn, Tensorflow o Pytorch, entre otras, y resulta entonces útil al momento de llevar a cabo la preparación de los datos o el análisis y exploración de los mismos.

La importancia de Pandas en la Ciencia de Datos y el Machine Learning

Pandas resulta fundamental en el ciclo de vida de un proyecto de Ciencia de Datos y en el ciclo de vida de un proyecto de Machine Learning en las siguientes fases:

Vale la pena aclarar que podemos usar Pandas en un proyecto de Machine Learning siempre y cuando los datos que estemos procesando sean datos estructurados.

Pandas: ¿cuándo usarlo y cuándo no?

Además de permitir manipular únicamente datos estructurados, existe otra situación en la cual es recomendable el uso de Pandas: cuando tenemos “datos pequeños” es decir cuando nuestro set de datos se puede almacenar en memoria en un sólo computador.

Cuando tenemos datasets gigantescos, que superan la capacidad de memoria de nuestro computador, es recomendable usar otras librerías como por ejemplo PySpark, Dask o Polars.

Sin embargo, es importante resaltar que estas librerías usan una sintaxis muy similar a la usada por Pandas para el procesamiento de datasets pequeños, así que el hecho de aprender Pandas nos permitirá reducir posteriormente la curva de aprendizaje de estas otras librerías en caso de que sea necesario aprenderlas.

Conclusión

Muy bien, acabamos de ver un panorama completo de lo que es la librería Pandas, de su relación con Python y otras librerías y de su importancia como herramienta para el procesamiento de datos en nuestros Proyectos de Ciencia de Datos y Machine Learning. Además hemos visto cuándo resulta recomendable usar Pandas y cuándo no.

Con esta introducción ya estamos listos para comenzar el componente práctico del curso. Entonces en la próxima lección veremos cómo instalar Pandas y cómo acceder a su documentación.

Ver todas las lecciones de este curso