1.10 - Introducción a Pandas para Deep Learning

Lección 10 de la sección “Introducción al Deep Learning” del curso Fundamentos de Deep Learning con Python.

Introducción

En la lección anterior vimos una introducción a Matplotlib para Deep Learning, y aprendimos a generar gráficas sencillas en dos dimensiones.

En esta lección veremos los elementos esenciales de Pandas, la librería de Python que permite la lectura y manipulación de datos en formato tabular, y que será una herramienta muy útil para el procesamiento de diferentes sets de datos que usaremos a lo largo de este curso.

Contenido exclusivo suscriptores

Suscríbete y accede al set de datos, código fuente y video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Lectura y visualización del dataset

En esta lección usaremos un dataset que contiene diferentes variables que miden el grado de felicidad de los habitantes de diferentes países del mundo. Este set de datos está almacenado en formato csv (comma separated values, o valores separados por comas) y lo podemos leer fácilmente con la librería Pandas usando la función read_csv:

data = pd.read_csv(ruta)

donde la variable ruta es precisamente la ruta completa al archivo csv que previamente hemos almacenado en nuestro Google Drive.

Una vez cargado en memoria, podemos dar una primera mirada al dataset para entender su contenido, para lo cual podemos usar la función head. También podemos verificar el número de filas y de columnas que contiene, usando la función shape.

Manipulación e Indexación de DataFrames

Tal como lo hacíamos con las listas de Python, en el caso de pandas podemos acceder a diferentes filas, columnas o celdas de nuestro dataset. Sin embargo, en este caso la indexación la podemos hacer especificando bien sea el número de la columna o su nombre.

Por ejemplo, podemos acceder a la columna “Country name” (nombre del país) usando la siguiente línea de código:

data['Country name']

O podemos acceder a la fila 144 usando la función iloc:

data.iloc[144]

Y también podemos acceder a la fila anterior (144) y a la columna Generosity (generosidad) usando una combinación de las dos líneas de código anteriores.

También podemos usar el mismo concepto de slicing usando en las listas de Python para extraer una porción del dataset y crear así uno nuevo:

nuevo_dataset = data.iloc[0:3,0:5]

En este caso es importante tener en cuenta que se aplican las mismas reglas de indexación que vimos anteriormente para el caso de las listas de Python (por ejemplo, el primer elemento siempre estará indexado con el valor 0 mientras que el último con el valor -1)

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al set de datos, código fuente y video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien, con esta lección ya hemos cubierto los elementos esenciales de Pandas. Estas herramientas, junto con las vistas en las lecciones anteriores para el caso de Python y de las librerías Numpy y Matplotlib, serán de mucha utilidad cuando comencemos a implementar modelos de Deep Learning en las próximas secciones.

Pero antes de culminar esta primera sección del curso debemos tener presentes algunos conceptos básicos de Álgebra Lineal, Cálculo Diferencial y Probabilidad y Estadística, las disciplinas sobre las cuáles está montada toda la teoría del Deep Learning.

Así que en la próxima lección veremos los elementos esenciales de Álgebra Lineal para Deep Learning.

Ver todas las lecciones de este curso