3 - Población, muestra y otras definiciones básicas

Lección 3 del curso Estadística Descriptiva.

En el módulo anterior vimos una introducción general a la Estadística e incluso en la lección anterior vimos la ruta sugerida para aprender Estadística para Ciencia de Datos y Machine Learning.

En este segundo módulo hablaremos del primer grupo de herramientas que comúnmente usaremos para describir nuestros datos: las medidas de tendencia central y de variabilidad.

Pero antes de hablar de esto es necesario que comencemos a definir una serie de conceptos muy sencillos y de terminología que usaremos en todos los cursos de esta serie.

Así que en esta lección hablaremos de dos conceptos fundamentales, que son la población y la muestra. De igual manera daremos un breve repaso a los tipos de datos y a los conceptos de registro, variable y los tipos de variables (que ya hemos abordado en otros cursos).

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien, acabamos de entender un par de conceptos esenciales como lo son la población y la muestra.

En esencia debemos tener siempre muy presente que en la práctica no podremos prácticamente nunca recolectar la totalidad de los datos de interés (es decir la población) sino sólo una parte (es decir una muestra).

Y esto implica que cuando realicemos el análisis de nuestros datos, o construyamos por ejemplo modelos predictivos con estos datos, siempre habrá un error y un sesgo en nuestros resultados.

Y este error y sesgo serán menores entre mayor sea el tamaño de nuestra muestra, pero inevitablemente no los podremos reducir a cero. Así que en parte la Estadística nos dará herramientas para, con base en la muestra recolectada, poder cuantificar el grado de fiabilidad que tendrán los resultados de nuestro análisis o las predicciones que generemos con nuestros modelos.

Además de la población y la muestra, también hemos repasado en esta lección algunos conceptos vistos anteriormente en otros cursos pero que resulta importante tener muy presentes: los tipos de datos (estructurados y no estructurados) así como los tipos de variables (que pueden ser numéricas y categóricas) y otra terminología (como registro, observación, variable, covariable o factor) que en adelante seguiremos usando en este y en los próximos cursos.

Con estas aclaraciones ya estamos listos para comenzar con todo el componente práctico del curso y especificamente en la próxima lección veremos qué son y cómo se usan las principales medidas de tendencia central disponibles para describir datos numéricos como categóricos.

Ver todas las lecciones de este curso