15 - Proyecto final: análisis de datos marketing bebida energizante - Parte 2: exploración del set de datos

Lección 15 del curso Pandas Nivel Básico.

En la lección anterior realizamos el planteamiento del problema para este proyecto de análisis de datos.

En esta segunda parte del proyecto veremos cómo usar Pandas para explorar nuestro set de datos, una fase esencial antes de realizar el análisis de los mismos.

El objetivo de esta fase es entoncesfamiliarizarnos con la información contenida en el set de datos.

Y aunque cada proyecto es diferente sugiero llevar a cabo al menos estos pasos de exploración:

Es importante que al final de cada fase, y en caso de que sea pertinente, agreguemos una breve síntesis de lo observado. Esto nos permitirá mantener una bitácora de las observaciones que vayamos encontrando y será útil en fases posteriores del análisis.

Veamos entonces cómo realizar esta exploración del set de datos:

Contenido exclusivo suscriptores

Suscríbete y accede al código fuente y al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Bien, acabamos de realizar la exploración de nuestro set de datos y con esto tenemos un mapa mental lo suficientemente claro de las principales características de nuestro dataset.

Hemos visto por ejemplo que la mayor parte de las columnas son de tipo categórico y que las columnas numéricas no contienen información relevante para el problema que queremos resolver (y, por tanto, podremos eliminarlas en la siguiente fase: la limpieza de datos).

Además, hemos analizado de manera individual cada una de las columnas categóricas y, con ayuda de Pandas, hemos determinado los diferentes niveles para estas variables categóricas.

Y por último hemos verificado cuáles columnas contienen datos faltantes, lo que nos da un punto de partida para la fase de limpieza de datos de la cual hablaremos en la próxima lección.

Con esta exploración ya tenemos una idea bastante detallada de las principales características de nuestro set de datos y de cuáles pueden ser las columnas que resultarán de interés para extraer los insights de los cuales hablamos en la lección anterior.

En la próxima lección veremos la tercera fase de este proyecto, en donde usaremos varias herramientas de Pandas para realizar la limpieza del set de datos.

Ver todas las lecciones de este curso