8 - Formas de almacenar los datos

Lección 8 del curso Introducción a la Ciencia de Datos.

Introducción

En la sección anterior hablamos de los diferentes tipos de datos que en esencia pueden ser estructurados y no estructurados.

En esta lección hablaremos de las diferentes alternativas de almacenamiento que existen, dependiendo de la complejidad y de la cantidad de datos que tengamos en nuestro proyecto.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Hojas de cálculo (spreadsheets) y archivos individuales

Si la cantidad de datos es reducida podríamos usar simplemente hojas de cálculo (para almacenar datos estructurados) o archivos individuales (para almacenar datos no estructurados).

Este es el método más sencillo de almacenamiento y si la cantidad de datos es limitada incluso podríamos almacenarlos y procesarlos en nuestros computadores personales.

Bases de datos

En ocasiones la cantidad de datos es elevada y esto puede hacer que resulte difícil preservar la organización de los datos o que no contemos con el espacio suficiente en memoria o en disco para poder almacenarlos y procesarlos.

En estos casos lo que se hace es almacenar estos datos en colecciones, conocidas como bases de datos, que permiten mantener los datos organizados y que usualmente facilitan el proceso de consulta de la información.

El elemento importante a tener en cuenta en este tipo de almacenamiento es que usualmente una base de datos contiene información de un sólo tipo (es decir sólo datos estructurados, solo imágenes, sólo voz, sólo video, etc.) y proveniente de una sola fuente.

Bodegas de datos (data warehouses)

Las bodegas de datos permiten almacenar mayores cantidades de datos que una base de datos convencional y lo más importante: provenientes de diferentes fuentes.

Usualmente se almacenan datos estructurados y son ideales para almacenar datos históricos de relevancia para la empresa. Por ejemplo se pueden usar para almacenar transacciones en puntos de venta, datos de campañas de marketing, información de interacciones con sitios web, etc., y esto hace que estas bodegas sean ideales para realizar Inteligencia de Negocios.

Lagos de datos (data lakes)

Los lagos de datos permiten almacenar mayores cantidades de datos que las bodegas. Estos datos pueden también provenir de diferentes fuentes y lo más importante: pueden ser estructurados o no estructurados.

Estos lagos de datos permiten no sólo almacenar los datos (como lo hacen las bodegas) sino que además podemos realizar procesamiento de estos datos en tiempo real o por lotes o analizarlos directamente en la nube usando herramientas como SQL, R o Python por ejemplo.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Bien, ya tenemos claros los diferentes tipos de almacenamiento usados convencionalmente en Ciencia de Datos, y tengamos en cuenta que la elección de un tipo de almacenamiento en particular dependerá de la magnitud del proyecto y de la complejidad del “negocio”.

Pero resulta que, como lo vimos en el ejemplo del ciclo de vida de un proyecto en Ciencia de Datos, en la práctica los datos no tienen un comportamiento ideal y antes de poder analizarlos necesitamos prepararlos adecuadamente para dicho análisis.

Esta fase se conoce como el pre-procesamiento de datos, que será precisamente el tema de la próxima lección.

Ver todas las lecciones de este curso