Los secretos de la Red Neuronal de YouTube

En este post veremos todos los detalles, el funcionamiento y todos los secretos de la red neuronal de YouTube, que es capaz de “entender” nuestras preferencias como usuarios y de esta forma recomendarnos unos cuantos videos de entre cientos de millones disponibles.

¡Así que listo, comencemos!

Video

Como siempre, en el canal de YouTube encontrarán el video de este post:

Introducción: ¿qué pasa cuando interactuamos con YouTube?

Para recomendarnos videos youtube usa dos tipos de señales que obtiene de nuestra interacción con la plataforma: las explícitas y las implícitas.

Las señales explícitas se dan cuando por ejemplo damos click en un video, lo comentamos o le damos un pulgar hacia arriba.

Las implícitas cuando por ejemplo escribimos algo en la barra de búsqueda de Youtube. También puede ser el historial de videos que hemos visto, o el tiempo de visualización de un video o una secuencia de videos.

El primer sistema de recomendación de YouTube (2005-2012)

Desde sus inicios en 2005 y más o menos hasta 2012 Youtube usaba un algoritmo bastante simple para hacer estas recomendaciones.

Simplemente sugería a los usuarios los videos con mayor número de vistas. Punto final. A YouTube no le importaba si el video que me recomendaba era, no sé, sobre cómo maquillarse, y a mí como usuario mmm…. no me gustaba maquillarme…

Así que por un lado, la experiencia en la plataforma no era muy personalizada, pero lo peor de todo fue que el sistema terminó premiando simplemente a los videos que obtenían más clicks, sin importar si los usuarios terminaban viéndolos o no.

Y esto permitió el aumento descontrolado del clickbait: videos donde el título y la imagen iban por un lado, pero el contenido iba por otra parte. Simplemente videos engañosos.

Y en últimas esto dañó por completo la experiencia del usuario en la plataforma.

Una evolución del algoritmo: los videos relacionados (2012)

Así que en 2012 YouTube decidió cambiar la forma de recomendar videos, buscando identificar y sugerir aquellos que la gente realmente quería ver.

Entonces, con ese nuevo algoritmo, comenzó a darle prioridad a los videos que fuesen capaces de mantener la atención del usuario, que incrementaran el tiempo de visualización y mejoraran su experiencia en la plataforma.

Para lograr esto, se introdujo el concepto de “videos relacionados”, que fue el núcleo del algoritmo.

Supongamos que el video semilla es el video que actualmente está viendo el usuario. Entonces el algoritmo comparaba este video semilla con cada uno de los demás videos subidos a la plataforma, y realizaba el conteo de cuántas veces había sido visto en conjunto con cada uno de los demás videos:

El concepto de los videos relacionados

Con esta información se construía un grafo, una estructura que contenía la relación existente entre el video semilla y cada uno de los demás videos: entre más veces hubieran sido vistos en conjunto los diferentes pares de videos, más cercanía existiría y por tanto era más probable que los videos más “cercanos” fuesen recomendados al usuario:

Grafo que describe la relación entre el video semilla y los videos relacionados

El problema era que este grafo era actualizado cada 24 horas, pues los usuarios no paraban de subir videos. Así que el método no resultaba práctico, pues para realizar este conteo entre todos los pares de videos subidos se debían hacer miles de millones de operaciones, y la cosa empeoraba día a día, ¡porque cada vez había más y más videos!

Pero el cálculo de los videos relacionados no era lo único en este algoritmo, pues era necesario personalizar la experiencia del usuario. Así que se incluyeron además dos etapas de selección: la primera extraía unos cuantos cientos de “videos candidatos” a partir del catálogo completo de youtube. Primero tomaba los videos ya vistos por el usuario y aquellos que le habían gustado, y a partir de estos “videos semilla” calculaba los correspondientes “videos relacionados”.

Con este set de candidatos se aplicaba otro proceso de selección, el de “ranking” para generar más o menos 60 videos sugeridos. Para esto tomaba cada video candidato y le asignaba una puntuación teniendo en cuenta el número de vistas, el número de “thumbs up” del video, las veces que fue compartido con otros usuarios y su antigüedad. Así, los videos eran organizados por puntajes de mayor a menor, y sólo los top-60 eran presentados finalmente al usuario.

Y aunque este algoritmo redujo el fenómeno de los clickbait, y generó una experiencia más personalizada para el usuario, aún tenía muchísimos inconvenientes:

  1. En primer lugar no tenía una respuesta en tiempo real, pues el núcleo del algoritmo, el grafo de “videos relacionados”, d ebía ser recalculado cada 24 horas. Adicionalmente, al tener en cuenta la “edad del video”, el algoritmo le daba prioridad a los videos más antiguos, y penalizaba a los nuevos canales y los nuevos videos subidos diariamente por los creadores de contenido.
  2. Pero peor aún: ¡este algoritmo no tenía en cuenta el tiempo de visualización! Así que no había garantía de que un usuario estuviera por más tiempo conectado a la plataforma.

2016: la nueva Red Neuronal de YouTube

Por esto en el año 2016 YouTube dijo “no más”, no más algoritmos, no más recetas o pasos a seguir para recomendar videos.

Pero entonces, si no era un algoritmo, ¿cómo se podían recomendar videos? Pues en YouTube decidieron crear una inteligencia artificial capaz de exprimir al máximo la información disponible en los videos y por parte de los usuarios, y de relacionar así el contenido del video con las preferencias de los usuarios. Mejorando no solo la experiencia del usuario sino su tiempo de permanencia en la plataforma.

El artículo (de 2016) que describe la Red Neuronal de YouTube

Y esta Red Neuronal de YouTube, que es la usada actualmente, básicamente lo que hace es generar como una “huella dactilar” de cada uno de ellos, y relacionar de esta forma al usuario con los videos que satisfacen sus gustos.

Para lograr esto el sistema usa dos inteligencias artificiales: la primera para generar unos cuantos cientos de candidatos, a partir del corpus de cientos de millones de videos subidos a la plataforma. Estos videos candidatos son luego depurados por una segunda red neuronal, que genera un ranking de un poco más de 70 videos que son elegidos a la medida de los intereses del usuario:

La Red Neuronal de YouTube

Primera Red Neuronal: videos candidatos

La obtención de los videos candidatos es una inteligencia artificial que contiene dos redes neuronales. La primera obtiene una “huella dactilar” de cada video que se sube a la plataforma, para lo cual toma el título, analiza el contenido del “thumbnail”, la descripción del video, la transcripción del audio y la edad del video. Después de representar numéricamente esta información, “aprende” a generar un vector (es decir un arreglo de números) que representa de manera compacta y con bastante precisión el contenido de cada video.

La segunda red neuronal hace algo similar pero con el usuario: en este caso toma el historial de videos vistos, el historial de búsquedas, el sexo, la ubicación geográfica, entre otros, representa estas variables numéricamente y “aprende” a calcular un perfil general del usuario, que se representa como otro vector, del mismo tamaño del generado anteriormente para cada video.

Con estas dos redes neuronales ya entrenadas, al momento de generar el listado de candidatos lo que hace el sistema simplemente es tomar las “huellas dactilares” de los 700 u 800 videos más cercanos al perfil, o “huella dactilar” del usuario.

Segunda Red Neuronal: depuración y ranking final

La segunda parte del sistema es otra red neuronal que se encarga de depurar los videos candidatos y de generar un ranking con sólo aproximadamente 70 de ellos, que son los que en últimas aparecen sugeridos en la home page cuando abrimos la aplicación.

Y una cosa bien importante de esta red neuronal es que está entrenada para predecir el tiempo de visualización de cada video. Así que los videos que en promedio tienen mejores tiempos de visualización tendrán más probabilidad de ser sugeridos al momento de generar el ranking con esta red neuronal.

Para lograr esto la segunda red neuronal que obtiene el ranking es entrenada con información más detallada tanto de los videos como de los usuarios.

Para el caso de los videos se incluyen detalles como el número de impresiones (es decir el número de veces que este video ha aparecido en las recomendaciones anteriores), el lenguaje del video y el tiempo promedio de visualización que ha tenido el video desde que fue subido a la plataforma.

Mientras que para el usuario se incluye información mucho más personalizada: la última búsqueda realizada, si el usuario está logueado o no en youtube, el número de videos que ha visto para un canal particular, la última vez que el vio un video sobre el tema, el último video visto. Es decir toda la información que detalla la interacción reciente del usuario con YouTube.

Toda esta información se representa de forma numérica y se introduce a esta segunda red neuronal para que aprenda a predecir la cantidad de minutos que el usuario visualizaría cierto video.

Conclusión

Al incluir toda la información que se puede recolectar tanto de los videos como de los usuarios y su interacción con la plataforma, YouTube ha logrado desarrollar esta inteligencia artificial que logra brindar una experiencia mucho más personalizada para el usuario.

Prueba de ello es que, para 2020, más del 70% de los usuarios confirmó que su tiempo de permanencia en la plataforma fue el resultado de ver los videos recomendados automáticamente por esta red neuronal.

Y bien, esto es todo. La idea principal de todo lo que vimos en este video: NO HAY UN ALGORITMO DE YOUTUBE encargado de recomendarnos videos, no se trata de un sistema de puntajes o de una serie de reglas que sigue Youtube para hacer estas recomendaciones.

Todo es hecho por una inteligencia artificial, una Red Neuronal que periódicamente se va entrenando y que, además de analizar el contenido de los videos, aprende a “entender” nuestros gustos y nuestra manera de interactuar con Youtube, y de esta manera “sabe” qué tipo de contenido sugerirnos. ¡Este es el secreto de la red neuronal de YouTube!

comments powered by Disqus