1 - ¿Qué es la Ciencia de Datos?

Lección 1 del curso Introducción a la Ciencia de Datos.

Introducción

En esta primera lección del curso comenzaremos por entender el significado de lo que es la Ciencia de Datos.

Para ello partiremos inicialmente de algunos ejemplos que nos permitirán comprender este concepto de forma intuitiva y luego con estos ejemplos al final de la lección veremos una definición formal de lo que es la Ciencia De Datos.

Video

En el canal de YouTube puedes ver el video completo de esta primera lección:

Ejemplo 1: los indicadores claves de desempeño

Los KPIs (del Inglés Key Performance Indicators) son cantidades numéricas que miden el desempeño de proyectos o metas propias de un negocio y que permiten determinar qué tan bien o mal va el negocio en ciertos aspectos clave.

Por ejemplo podemos medir:

Independientemente de cuál sea el KPI, a la empresa o negocio le interesa tener un registro de estas métricas y posteriormente analizarlas para extraer información valiosa que le permita tomar acciones de mejora en sus diferentes estrategias.

Por ejemplo, si analizamos los ingresos por ventas podremos encontrar meses donde las ventas se incrementan y otros donde se reducen. Y en este caso podemos intentar encontrar el motivo detrás de esos aumentos o reducciones y podemos incluso sugerir a la empresa un cambio de estrategia para incrementar las ventas en esos períodos valle.

O también podemos encontrar la relación entre estos ingresos por ventas y las inversiones en marketing y determinar que por ejemplo una reducción en las ventas está relacionada con una reducción en la inversión en campañas publicitarias, concluyendo que tal vez en esos períodos de tiempo debemos destinar más recursos a esa inversión en publicidad.

O podemos por ejemplo mirar el costo de adquisición de un cliente o la tasa de conversión y darnos cuenta de que la estrategia de marketing no está siendo exitosa, porque estamos invirtiendo mucho dinero y adquiriendo pocos clientes. Esto nos puede llevar a pensar que por ejemplo no estamos llevando esta campaña a nuestros clientes potenciales y que tal vez resulte mejor cambiar nuestro segmento de cliente para llegar a aquellos que realmente estarían interesados en nuestros productos.

Ejemplo 2: entidad bancaria

Como segundo ejemplo consideremos la información personal que recolecta una entidad bancaria de sus clientes.

Esta entidad puede tener por ejemplo datos de la edad, el género, el nivel socioeconómico y educativo, el nivel de endeudamiento, los patrones de consumo y de uso de crédito, o si un cliente en particular tiene vehículo, hipoteca, inversiones u otro tipo de activos.

Y entonces dependiendo de estos datos recolectados para varios clientes el banco podría realizar un análisis que le permita identificar diferentes segmentos de cliente a quienes podría ofrecer diferentes tipos de productos. Podría encontrar por ejemplo aquellos clientes a quienes les puede resultar más atractivo un crédito de libre inversión o una tarjeta de crédito, otros a quienes posiblemente les resulte mejor ofrecerles una hipoteca y otros a quienes definitivamente no les interesa endeudarse pero tal vez estén más interesados en realizar inversiones que ofrezcan buena rentabilidad a mediano plazo.

O también es posible que el banco desarrolle algún sistema que permita predecir la probabilidad de que un cliente pague a tiempo un crédito o de que por el contrario se atrase en una o más cuotas.

¿Qué hay en común en los ejemplos anteriores?

En los ejemplos anteriores , más allá de la aplicación en particular, podemos observar estos elementos en común:

La combinación de estos tres elementos es lo que se conoce como Ciencia de Datos. Así que veamos un par de definiciones más formales.

¿Qué es la Ciencia de Datos?: definición 1

De acuerdo con lo visto en el apartado anterior podemos decir que la Ciencia de Datos es precisamente el elemento que enlaza los datos con los objetivos del negocio permitiendo resolver problemas específicos o apoyar la toma de decisiones.

Así que podemos definir inicialmente la Ciencia de Datos de esta forma:

la Ciencia de Datos (Data Science) es un área interdisciplinar que usa diferentes técnicas, herramientas, algoritmos y sistemas para extraer conocimiento profundo (insights) a partir de los datos y así usarlo para la solución de problemas o para la toma de decisiones

Desglosemos los principales elementos de esta definición:

¿Qué es la Ciencia de Datos?: definición 2

Veamos una segunda definición, equivalente a la anterior pero un poco más específica:

La Ciencia de Datos (Data Science) es una disciplina que intenta resolver problemas y necesidades del negocio a través del análisis de datos históricos

Conclusión

Muy bien con estas definiciones ya comenzamos a tener una idea clara de lo que es la Ciencia de Datos, que como vimos en últimas busca apoyar la solución de problemas y toma de decisiones a través del análisis riguroso de los datos, usando herramientas propias de las Ciencias Computacionales y unas sólidas bases en campos como las matemáticas, la probabilidad y la estadística entre otras.

El objetivo ahora es seguir profundizando en estas definiciones y para ello en la próxima lección veremos varios ejemplos reales y específicos que nos permitirán tener un panorama de los diferentes campos de aplicación de la Ciencia de Datos en nuestra vida cotidiana y en la sociedad

Ver todas las lecciones de este curso