7 - Tipos de Datos

Lección 7 del curso Introducción a la Ciencia de Datos.

Introducción

En la lección anterior hablamos de los diferentes roles asociados a la Ciencia de Datos con lo cual culminamos la primera sección del curso. Así que en este punto ya tenemos un panorama completo de lo que es la Ciencia de Datos.

En esta segunda sección del curso nos enfocaremos en los datos, la materia prima de la Ciencia de Datos. Así que hablaremos de los tipos de datos que usualmente tendremos que utilizar, la forma como se almacenan y los tipos de procesamiento que podemos hacer sobre estos.

Y en particular en esta lección comenzaremos hablando precisamente de los tipos de datos, que se pueden clasificar en dos grandes categorías: los datos estructurados y los datos no estructurados.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

La importancia de saber con qué tipos de datos estamos tratando

En Ciencia de Datos es importante determinar cuáles serán los tipos de datos que usaremos para resolver nuestro problema, pues de estos tipos de datos dependerán las siguientes fases de nuestro proyecto.

Y esencialmente tendremos dos grandes categorías de datos: los estructurados y los no estructurados.

Datos estructurados

Los datos estructurados son aquellos donde la información está perfectamente organizada, en el sentido de que tiene claramente definidos unos campos y unas etiquetas.

Dado este nivel de organización los datos estructurados generalmente los podemos encontrar almacenados en formato tabular o en bases de datos que permiten mantener esta estructura, lo que hace que los podamos procesar más fácilmente usando el lenguaje de los computadores.

Datos estructurados: posibles variaciones

Adicionalmente dentro de los datos estructurados podemos tener dos sub-tipos: los numéricos y los categóricos, cada uno con otras subcategorías.

Los datos estructurados numéricos contienen, como su nombre lo indica, cantidades numéricas, que a la vez pueden ser:

Por otra parte los datos estructurados categóricos, como su nombre lo indica, definen si el dato pertenece o no a alguna categoría dentro de nuestro set de datos. Estos datos categóricos pueden ser:

Datos no estructurados

Los datos estructurados son simplemente lo opuesto de los datos estructurados, es decir que no poseen ninguna estructura en particular. Este tipo de datos guarda más relación con la forma como nos comunicamos los seres humanos y por tanto resulta más difícil procesarlos usando el lenguaje de los computadores.

Los principales tipos de datos no estructurados son:

Vemos que en todos estos ejemplos, para que un computador logre extraer información relevante de estos datos se requiere un procesamiento adicional y mucho más sofisticado que el que se requiere para los datos no estructurados.

De hecho, en Ciencia de Datos existe toda una línea de técnicas (conocida como Deep Learning) enfocadas precisamente en el procesamiento de este tipo de datos.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

Ya tenemos claros los dos tipos de datos que se manejan en la Ciencia de Datos, lo cual resulta esencial pues dependiendo del tipo de dato que tengamos podremos usar unas u otras técnicas en nuestros proyectos.

En la próxima lección veremos entonces las diferentes formas de almacenamiento de datos que podemos usar dependiendo de la cantidad y complejidad de los mismos.

Ver todas las lecciones de este curso