1 - ¿Qué es la Ciencia de Datos?
Lección 1 del curso Introducción a la Ciencia de Datos.
Tabla de contenido
Introducción
En esta primera lección del curso comenzaremos por entender el significado de lo que es la Ciencia de Datos.
Para ello partiremos inicialmente de algunos ejemplos que nos permitirán comprender este concepto de forma intuitiva y luego con estos ejemplos al final de la lección veremos una definición formal de lo que es la Ciencia De Datos.
Video
En el canal de YouTube puedes ver el video completo de esta primera lección:
Ejemplo 1: los indicadores claves de desempeño
Los KPIs (del Inglés Key Performance Indicators) son cantidades numéricas que miden el desempeño de proyectos o metas propias de un negocio y que permiten determinar qué tan bien o mal va el negocio en ciertos aspectos clave.
Por ejemplo podemos medir:
- Los ingresos por ventas que nos permiten determinar los niveles de venta de globales o de un producto en particular de la empresa dentro de un período de tiempo.
- Las inversiones en marketing para determinar la cantidad de dinero destinada a estrategias de publicidad en un período de tiempo.
- El costo de adquisición de un cliente, que mide la relación entre las inversiones en marketing y el número de clientes ganados en esa campaña, es decir cuánto dinero le cuesta a una empresa adquirir un cliente
- La tasa de conversión, que mide del total de clientes que conocen o visitan nuestro negocio o nuestro sitio web cuántos terminan adquiriendo un producto en particular
Independientemente de cuál sea el KPI, a la empresa o negocio le interesa tener un registro de estas métricas y posteriormente analizarlas para extraer información valiosa que le permita tomar acciones de mejora en sus diferentes estrategias.
Por ejemplo, si analizamos los ingresos por ventas podremos encontrar meses donde las ventas se incrementan y otros donde se reducen. Y en este caso podemos intentar encontrar el motivo detrás de esos aumentos o reducciones y podemos incluso sugerir a la empresa un cambio de estrategia para incrementar las ventas en esos períodos valle.
O también podemos encontrar la relación entre estos ingresos por ventas y las inversiones en marketing y determinar que por ejemplo una reducción en las ventas está relacionada con una reducción en la inversión en campañas publicitarias, concluyendo que tal vez en esos períodos de tiempo debemos destinar más recursos a esa inversión en publicidad.
O podemos por ejemplo mirar el costo de adquisición de un cliente o la tasa de conversión y darnos cuenta de que la estrategia de marketing no está siendo exitosa, porque estamos invirtiendo mucho dinero y adquiriendo pocos clientes. Esto nos puede llevar a pensar que por ejemplo no estamos llevando esta campaña a nuestros clientes potenciales y que tal vez resulte mejor cambiar nuestro segmento de cliente para llegar a aquellos que realmente estarían interesados en nuestros productos.
Ejemplo 2: entidad bancaria
Como segundo ejemplo consideremos la información personal que recolecta una entidad bancaria de sus clientes.
Esta entidad puede tener por ejemplo datos de la edad, el género, el nivel socioeconómico y educativo, el nivel de endeudamiento, los patrones de consumo y de uso de crédito, o si un cliente en particular tiene vehículo, hipoteca, inversiones u otro tipo de activos.
Y entonces dependiendo de estos datos recolectados para varios clientes el banco podría realizar un análisis que le permita identificar diferentes segmentos de cliente a quienes podría ofrecer diferentes tipos de productos. Podría encontrar por ejemplo aquellos clientes a quienes les puede resultar más atractivo un crédito de libre inversión o una tarjeta de crédito, otros a quienes posiblemente les resulte mejor ofrecerles una hipoteca y otros a quienes definitivamente no les interesa endeudarse pero tal vez estén más interesados en realizar inversiones que ofrezcan buena rentabilidad a mediano plazo.
O también es posible que el banco desarrolle algún sistema que permita predecir la probabilidad de que un cliente pague a tiempo un crédito o de que por el contrario se atrase en una o más cuotas.
¿Qué hay en común en los ejemplos anteriores?
En los ejemplos anteriores , más allá de la aplicación en particular, podemos observar estos elementos en común:
- De un lado tenemos los datos (como los asociados a los KPIs o a la información proveniente de los clientes del banco)
- Por otro lado tenemos los objetivos del negocio (incrementar las ventas, reducir el costo de adquisición de los clientes, mejorar la tasa de conversión, crear un nuevo producto crediticio o de inversión para un perfil de cliente en particular)
- Y en medio tenemos unas estrategias resultantes de un proceso de observación y estudio detallado de los datos y que van en pro de la mejora del negocio.
La combinación de estos tres elementos es lo que se conoce como Ciencia de Datos. Así que veamos un par de definiciones más formales.
¿Qué es la Ciencia de Datos?: definición 1
De acuerdo con lo visto en el apartado anterior podemos decir que la Ciencia de Datos es precisamente el elemento que enlaza los datos con los objetivos del negocio permitiendo resolver problemas específicos o apoyar la toma de decisiones.
Así que podemos definir inicialmente la Ciencia de Datos de esta forma:
la Ciencia de Datos (Data Science) es un área interdisciplinar que usa diferentes técnicas, herramientas, algoritmos y sistemas para extraer conocimiento profundo (insights) a partir de los datos y así usarlo para la solución de problemas o para la toma de decisiones
Desglosemos los principales elementos de esta definición:
- ¿Por qué es “Ciencia”? Si tomamos la definición del término por la Real Academia de la Lengua Española “Conjunto de conocimientos obtenidos mediante la observación y el razonamiento… de los que se deducen principios y leyes generales con capacidad predictiva y comprobables experimentalmente” veremos en los ejemplos anteriores que efectivamente estamos observando los datos (observación) y realizando un análisis de los mismos (razonamiento) para definir nuevas estrategias que a futuro permitirán alcanzar objetivos del negocio (acá tenemos el elemento predictivo y la comprobación experimental)
- ¿Por qué “de Datos”? porque precisamente en esta Ciencia son los Datos la materia prima necesaria para llevar a cabo todo el proceso de observación, razonamiento, toma de decisiones, etc.
- ¿Por qué interdisciplinar? Como veremos a lo largo del curso, para poder tomar decisiones sustentadas a partir de los datos necesitaremos herramientas como la programación (para poder adquirir y procesar estos datos), conocimientos matemáticos, de probabilidad y estadística (para poder extraer información de esos datos) y desde luego conocimiento del negocio para poder definir estrategias que beneficien los objetivos del negocio. Así que tenemos precisamente la combinación de múltiples disciplinas para la solución de un problema en particular
- ¿Por qué extraer conocimiento profundo? Porque precisamente nos interesa no sólo observar el comportamiento de los datos sino también entender las razones de su comportamiento (porqué se vendió más un mes que otro, porqué no esta funcionando la estrategia de marketing, etc.) y con base en ello definir estrategias adecuadas que tengan un impacto positivo en el negocio.
- Y en últimas todo esto combinado debe apoyar la solución de problemas o el proceso de toma de decisiones del negocio.
¿Qué es la Ciencia de Datos?: definición 2
Veamos una segunda definición, equivalente a la anterior pero un poco más específica:
La Ciencia de Datos (Data Science) es una disciplina que intenta resolver problemas y necesidades del negocio a través del análisis de datos históricos
- De nuevo vemos que el objetivo principal de la Ciencia de Datos es resolver problemas y necesidades de un negocio (entendiendo este negocio en un sentido amplio).
- Usando herramientas de análisis (más adelante, en la tercera parte del curso, veremos los tipos de análisis que se pueden llevar a cabo)
- Y que usa como insumo principal datos relevantes del comportamiento del negocio adquiridos en un periodo de tiempo (es decir datos históricos)
Conclusión
Muy bien con estas definiciones ya comenzamos a tener una idea clara de lo que es la Ciencia de Datos, que como vimos en últimas busca apoyar la solución de problemas y toma de decisiones a través del análisis riguroso de los datos, usando herramientas propias de las Ciencias Computacionales y unas sólidas bases en campos como las matemáticas, la probabilidad y la estadística entre otras.
El objetivo ahora es seguir profundizando en estas definiciones y para ello en la próxima lección veremos varios ejemplos reales y específicos que nos permitirán tener un panorama de los diferentes campos de aplicación de la Ciencia de Datos en nuestra vida cotidiana y en la sociedad