2 - El sesgo

Lección 2 del curso Estadística Inferencial Fundamentos.

En la lección anterior hablamos del concepto de muestreo y de los tipos de muestreo que usualmente podemos encontrar en Ciencia de Datos y Machine Learning.

En esencia es casi imposible poder contar siempre con la cantidad de datos totales (la población) y lo que usualmente haremos será trabajar con una muestra de estos.

Y esto implica que al no poder analizar todos los datos introduciremos a nuestro análisis (o a los modelos que desarrollemos con estos datos) un grado de incertidumbre.

En esta lección seguiremos profundizando sobre los efectos que tiene trabajar con una muestra de los datos y hablaremos en detalle del sesgo. Así que entenderemos qué es el sesgo, qué tipos de sesgo podemos tener y cómo se puede reducir este sesgo al momento de analizar nuestros datos.

Entonces comenzaremos viendo un ejemplo práctico que nos permitirá tener una idea intuitiva del sesgo y luego de esto veremos una definición formal del concepto.

Luego hablaremos de los dos tipos de sesgo que existen comúnmente y algunas alternativas para reducir este fenómeno. Y al finalizar resumiremos los principales aspectos a tener en cuenta al momento de analizar nuestros datos bajo esta perspectiva.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien, acabamos de ver qué es el sesgo que es simplemente un error que se introduce al momento de obtener un parámetro estadístico y que resulta de trabajar con una muestra de los datos y no con la población.

En esencia podemos tener dos tipos de sesgo: el debido a la toma de datos y el debido al muestreo. Este último lo podemos reducir si nuestra muestra contiene una cantidad representativa de datos de la población.

Teniendo claro este concepto de sesgo, en la siguiente lección seguiremos analizando los efectos que tiene trabajar con una muestra del total de la población y veremos en detalle en qué consiste la distribución muestral y por qué resulta relevante en Ciencia de Datos y Machine Learning.

Ver todas las lecciones de este curso