5 - Ejemplo práctico: ciclo de vida de un proyecto en Ciencia de Datos

Lección 5 del curso Introducción a la Ciencia de Datos.

Introducción

En la lección anterior vimos los roles que desempeña un Científico de Datos en una organización, los cuales están relacionados directamente con el ciclo de vida de un proyecto en Ciencia de Datos.

En esta lección haremos un sencillo ejemplo práctico que nos permitirá tener claras las fases de desarrollo de un proyecto en Ciencia de Datos así como los roles que desempeña el Científico de Datos en este proyecto.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

El problema a resolver

Teniendo en cuenta que este curso está pensado para todos aquellos que están iniciando en la Ciencia de Datos, en el ejemplo que analizaremos a continuación no haremos uso de sets de datos complejos o de herramientas de programación, visualizació o de estadística avanzadas.

A pesar de lo sencillo de este ejemplo con este ejercicio podremos tener una primera aproximación a lo que es trabajar con un problema de Ciencia de Datos.

Específicamente cubriremos cada una de las 7 etapas del ciclo de vida de un proyecto en Ciencia de Datos que vimos en la lección anterior, comenzando con el problema a resolver.

En este caso particular supondremos que el “negocio” está relacionado con el desarrollo de políticas de Salud Pública.

En particular vamos a asumir que al Ministerio de Salud le interesa poder estimar el nivel de sobrepeso de la población en su país. Y aunque cuenta con diferentes herramientas para hacer esta estimación, entre otras tiene acceso a registros en video de lugares de alta circulación de personas en diferentes ciudades del país. A partir de estos registros de video, y con ayuda de herramientas de Visión Artificial, es posible determinar la altura de las personas.

El Ministerio quiere aprovechar estos datos para de alguna forma contar con una herramienta que permita estimar el peso de una persona (en Kg) dada su altura (en cm).

De ser posible, se contaría con un sistema que basado en secuencias de video permitiría tener una estimación del nivel de sobrepeso en la población del país.

Objetivo

El problema anterior lo podemos reformular usando lenguaje propio de la Ciencia de Datos como: ¿es posible predecir el peso de una persona dada su altura?

Partiendo de esta reformulación del problema podemos definir el objetivo de nuestro proyecto usando también terminología de la Ciencia de Datos como: desarrollar un modelo capaz de predecir el peso en Kg de una persona dada su altura en cm.

Recolección de datos

Teniendo claro el problema a resolver y nuestro objetivo, el siguiente paso en nuestro proyecto es recolectar los datos.

En este caso ya tenemos claras las variables que van a intervenir en nuestro modelo: el peso y la altura. Así que debemos recolectar datos de nuestra problación y que contengan precisamente estas dos variables.

Vamos a suponer que estos datos son suministrados precisamente por los registros que reposan en el Ministerio de Salud y que, para simplificar aún más nuestro análisis, tendremos la información correspondiente a 23 sujetos.

Este set de datos se encuentra como enlace de descarga disponible en esta lección.

Limpieza de datos

Al observar los 23 registros vemos que hay datos incompletos. En particular los sujetos 2 y 14 no contienen datos asociados al peso, mientras que el sujeto 21 no contiene información de la altura. Por este motivo debemos eliminar estas filas de nuestro set de datos.

Adicionalmente observamos que para el sujeto 4 se reporta una altura de 287 cm, un valor extredamente alto y que probablemente no corresponde con la realidad. Esto se conoce como un valor extremo (o outlier) y también debemos eliminarlo de nuestro set de datos.

Así que tras esta limpieza pasaremos de 23 registros a un total de 19.

Análisis exploratorio de datos

Dado que en este punto no contamos con herramientas teóricas o de programación avanzadas, podemos simplemente recurrir a una hoja de cálculo y realizar lo que se conoce como una gráfica de dispersión, en la cual podremos ver la forma como se relacionan la altura (eje horizontal de la gráfica) con el peso (eje vertical).

Con esta gráfica podemos ver que existe una relación lineal entre estas dos variables: un incremento en la altura genera un incremento proporcional en el peso y viceversa.

Análisis predictivo

Y teniendo en cuenta los resultados del análisis exploratorio hemos encontrado que las variables altura y peso tienen una relación lineal.

Así que, adelantándonos un poco a lo que vendrá en próximos cursos, lo que haremos será construir algo que se conoce como un modelo de Regresión Lineal. Este modelo simplemente será la ecuación matemática correspondiente a una línea recta. La variable independiente en este modelo será la altura y al reemplazar este valor en la ecuación obtendremos la predicción deseada: el peso estimado de la persona.

Comunicación de los resultados

Lo único que nos resta es comunicar los resultados a nuestros jefes y a nuestro equipo de trabajo, usando un lenguaje fácil de entender.

En este caso podríamos generar un breve reporte escrito o una corta presentación indicando, por ejemplo el objetivo, la metodología que seguimos para resolver el problema y los resultados obtenidos.

Contenido exclusivo suscriptores

Recuerda suscribirte para acceder al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Conclusión

A pesar de lo sencillo que ha sido con este ejercicio hemos podido entender más en detalle las fases de desarrollo de un proyecto de Ciencia de Datos.

Desde luego que en el mundo real tendremos problemas y sets de datos más complejos, por lo cual serán necesarias herramientas teóricas y de programación mucho más sofisticadas de las que acabamos de ver para poder dar solución al problema, pero a pesar de esto ya hemos tenido una primera aproximación a lo que es el trabajo de un Científico de Datos.

Sin embargo, en ocasiones, dependiendo de cómo esté organizado el equipo de trabajo, existen otros roles diferentes al Científico de Datos que pueden apoyar algunas fases de desarrollo del proyecto.

Así que en la próxima lección hablaremos en detalle de esos otros roles asociados a la Ciencia de Datos.

Ver todas las lecciones de este curso