7 - Tipos de Datos
Lección 7 del curso Introducción a la Ciencia de Datos.
Tabla de contenido
Introducción
En la lección anterior hablamos de los diferentes roles asociados a la Ciencia de Datos con lo cual culminamos la primera sección del curso. Así que en este punto ya tenemos un panorama completo de lo que es la Ciencia de Datos.
En esta segunda sección del curso nos enfocaremos en los datos, la materia prima de la Ciencia de Datos. Así que hablaremos de los tipos de datos que usualmente tendremos que utilizar, la forma como se almacenan y los tipos de procesamiento que podemos hacer sobre estos.
Y en particular en esta lección comenzaremos hablando precisamente de los tipos de datos, que se pueden clasificar en dos grandes categorías: los datos estructurados y los datos no estructurados.

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
La importancia de saber con qué tipos de datos estamos tratando
En Ciencia de Datos es importante determinar cuáles serán los tipos de datos que usaremos para resolver nuestro problema, pues de estos tipos de datos dependerán las siguientes fases de nuestro proyecto.
Y esencialmente tendremos dos grandes categorías de datos: los estructurados y los no estructurados.
Datos estructurados
Los datos estructurados son aquellos donde la información está perfectamente organizada, en el sentido de que tiene claramente definidos unos campos y unas etiquetas.
Dado este nivel de organización los datos estructurados generalmente los podemos encontrar almacenados en formato tabular o en bases de datos que permiten mantener esta estructura, lo que hace que los podamos procesar más fácilmente usando el lenguaje de los computadores.
Datos estructurados: posibles variaciones
Adicionalmente dentro de los datos estructurados podemos tener dos sub-tipos: los numéricos y los categóricos, cada uno con otras subcategorías.
Los datos estructurados numéricos contienen, como su nombre lo indica, cantidades numéricas, que a la vez pueden ser:
- Discretas, cuando toman sólo valores enteros
- Continuas cuando pueden tomar cualquier valor dentro de un intervalo
Por otra parte los datos estructurados categóricos, como su nombre lo indica, definen si el dato pertenece o no a alguna categoría dentro de nuestro set de datos. Estos datos categóricos pueden ser:
- Nominales, que se usan para asignar una categoría al dato pero no pueden ser ordenados ni medidos
- Binarios, usados para asignar una de sólo dos posibles categorías al dato
- Ordinales que indican el orden en el que vienen representados los datos
Datos no estructurados
Los datos estructurados son simplemente lo opuesto de los datos estructurados, es decir que no poseen ninguna estructura en particular. Este tipo de datos guarda más relación con la forma como nos comunicamos los seres humanos y por tanto resulta más difícil procesarlos usando el lenguaje de los computadores.
Los principales tipos de datos no estructurados son:
- Las imágenes y el video
- Los datos provenientes de sensores
- La voz (es decir el lenguaje hablado) y el texto (es decir el lenguaje escrito)
Vemos que en todos estos ejemplos, para que un computador logre extraer información relevante de estos datos se requiere un procesamiento adicional y mucho más sofisticado que el que se requiere para los datos no estructurados.
De hecho, en Ciencia de Datos existe toda una línea de técnicas (conocida como Deep Learning) enfocadas precisamente en el procesamiento de este tipo de datos.

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online
Conclusión
Ya tenemos claros los dos tipos de datos que se manejan en la Ciencia de Datos, lo cual resulta esencial pues dependiendo del tipo de dato que tengamos podremos usar unas u otras técnicas en nuestros proyectos.
En la próxima lección veremos entonces las diferentes formas de almacenamiento de datos que podemos usar dependiendo de la cantidad y complejidad de los mismos.