6 - Los intervalos de confianza

Lección 6 del curso Estadística Inferencial Fundamentos.

En la lección anterior vimos qué es el error estándar, que es una manera de cuantificar qué tan fiable es la estimación que estamos haciendo de la media de la población a partir de la distribución muestral de las medias.

En esta lección veremos otra manera de cuantificar esta incertidumbre en las estimaciones que estemos haciendo sobre nuestros datos: hablaremos de los intervalos de confianza.

Como en las lecciones anteriores comenzaremos con un ejemplo intuitivo para luego dar una definición formal de lo que son los intervalos de confianza. Al final analizaremos la relación que tiene este intervalo de confianza con el error estándar, visto en la lección anterior, y con el tamaño de la muestra.

Contenido exclusivo suscriptores

Suscríbete para tener acceso al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Muy bien acabamos de entender de forma práctica el concepto de los intervalos de confianza.

En últimas el intervalo de confianza nos indica el nivel de certeza (medido como un porcentaje) que tendremos de que la estadística en la población se encuentre dentro de un rango determinado de valores.

Y este intervalo es, junto con el error estándar, también otra manera de cuantificar la incertidumbre en nuestras estimaciones.

Además vimos la relación entre la amplitud del intervalo de confianza y el tamaño de la muestra: entre mayor sea el tamaño de la muestra menor será la amplitud del intervalo y por tanto tendremos mejores estimaciones.

Así que en este punto ya hemos visto diferentes herramientas que nos permiten realizar estimaciones sobre nuestros datos a partir de muestras de una población y que además nos permiten cuantificar la incertidumbre en estas estimaciones.

Pero hay un problema de fondo: en todos los casos que hemos analizado hasta el momento hemos partido de ejemplos simulados en donde siempre teníamos acceso a la población. Pero en todas las lecciones anteriores hemos venido mencionando que en la práctica realmente es muy difícil acceder a esta población.

Así que acá surge una pregunta inevitable que es: ¿cómo podemos construir distribuciones muestrales y realizar estimaciones a partir de múltiples muestras de la población si en principio no podemos acceder a esta población para obtener todas las muestras que queramos?

Es decir que hasta este punto las técnicas que hemos visto funcionarían correctamente siempre y cuando tengamos acceso a la población y por tanto en la práctica no podríamos usar ninguna de estas técnicas para analizar nuestros datos.

Afortunadamente existe una técnica que nos permite seguir aplicando los métodos que hemos discutido hasta ahora pero cuando sólo podemos contar con una muestra de la población. Esta técnica es esencial en la Estadística Inferencial y en la Ciencia de Datos y el Machine Learning y se conoce como la técnica del “bootstrapping” de la cual hablaremos en detalle en la próxima lección.

Ver todas las lecciones de este curso