8 - La distribución multinomial: ejemplo práctico

Lección 8 del curso Probabilidad Nivel Intermedio.

En la lección anterior vimos qué es la distribución multinomial, que nos permite calcular la probabilidad de ocurrencia para situaciones en las cuales tenemos una variable aleatoria discreta, con múltiples categorías y además múltiples intentos.

En esta lección veremos de forma práctica cómo aplicar este concepto de la distribución multinomial para crear un sencillo modelo predictivo aplicado al procesamiento del lenguaje natural.

En particular veremos cómo tomar una serie de Cuentos de Edgar Alan Poe (almacenados en formato TXT), pre-procesar este texto para extraer las palabras que lo conforman y a partir de esto calcular la distribución de probabilidades y construir un sencillo modelo usando la distribución multinomial.

Contenido exclusivo suscriptores

Suscríbete y accede al código fuente y al video con la explicación detallada de esta lección. Además podrás disfrutar de todos los cursos de la Academia Online

Bien, acabamos de ver una aplicación práctica de la distribución multinomial donde, haciendo uso de Python y librerías como Pandas y Seaborn, hemos logrado construir un modelo que nos permite determinar la probabilidad de ocurrencia de varias palabras dentro de un texto tomando como punto de partida la distribución de probabilidades del texto original.

Así que en este punto ya hemos visto las dos distribuciones de probabilidad más usadas en Ciencia de Datos y Machine Learning para el caso de variables aleatorias discretas: la distribución binomial y la distribución multinomial.

Con esto cerramos este módulo y estamos listos para iniciar el último módulo del curso, donde nos enfocaremos en la distribución de probabilidad para variables continuas más usada y que más comúnmente encontraremos en nuestros proyectos de Ciencia de Datos y Machine Learning: la distribución gaussiana (también llamada distribución normal).

Y específicamente en la próxima lección comenzaremos hablando de las funciones densidad de probabilidad y distribución acumulada para el caso de variables aleatorias continuas.

Ver todas las lecciones de este curso