Sobre la ciencia de los datos, predicciones de los Oscares y los errores encontrados

Después de que el año pasado la predicción a la mejor película en los premios Oscar, fuese correcto, los científicos de la ciencia de datos decidieron predecir de nuevo para esta nueva entrega de la estatuilla de Hollywood. En este caso dijeron que ROMA sería la película ganadora. Pero ésta no ganó el galardón a la mejor película, sino que éste fue para el segundo lugar de acuerdo a las predicciones. Fue Green Book quien triunfó, ¿en dónde se equivocaron?

En el 2018 el equipo de programación en línea, Thinkful, usó aprendizaje supervisado para ver los patrones en el pasado en el premio a la mejor película en los Oscares para así, predecir el siguiente. Después de haber hecho el duro trabajo de recolectar y limpiar los datos para el ejercicio inicial del 2018, en donde predijeron con éxito que “La Forma del Agua” sería la ganadora, supusieron que la nueva predicción sería trivial de hacer.

Imagen relacionada

Adam Levenson, en el blog de desarrolladores escribió: “Para nuestro proyecto usamos el clasificador del bosque azaroso, un algoritmo de aprendizaje de máquinas que determina las relaciones entre variables a través de la creación y evaluación de árboles de decisión. Para nuestra predicción del Oscar, en estos árboles de decisión se resuelven mediante preguntas simples de Sí/No, por ejemplo: ¿Es la evaluación de IMDB es mayor que X?, en donde el clasificador define la importancia relativa de estos resultados.

Los pesos relativos tienen, por supuesto, valores diferentes a los del año pasado. Y aunque los tres pesos principales se mantuvieron en el mismo orden, los de directores ganadores y de productores ganadores incrementaron su importancia por un par de centésimas. Por otra parte, los actores ganadores, que tenían el cuarto sitio en pesos relativos, cayeron al sexto sitio. Los ganadores de los Globos de Oro también cayeron un lugar (de octavo a noveno). Los pesos de IMDB y BAFTA, en sus respectivas nominaciones, se incrementaron un poco, para ascender un lugar cada uno.

Resultado de imagen para oscar estatuilla

Con los pesos actualizados, el modelo podría entonces dar la probabilidad de ganar entre las nominaciones y las predicciones. El año pasado Thinkful predijo que ganaría la película de Guillermo del Toro, con una probabilidad que estaba apenas una unidad sobre la siguiente película, con las otras con valores menores de 0.1 en sus probabilidades. Pero este año, dice Levenson, las cosas no eran tan simples: “La diferencia entre Roma y el siguiente filme, Green Book, es de 12% (36% a 24%), esto nos da una predicción con menor margen que el año pasado, cuando La Forma del Agua tenía el 47% y Three Billboards Outside Ebbing, Missouri, 27%”.

Las películas geek que triunfaron en el Oscar 2019

Pero Thinkful falló en esta ocasión, aunque Roma se llevó 3 Oscares. Aparentemente esto se debió a características como: ser una película patrocinada y producida por Netflix, lo que hizo que originalmente el filme estuviese en pocas salas cinematográficas. Además, era en español y en blanco y negro. Tal vez habría que haber considerado estas características particulares en el árbol de decisiones.

La entrada Sobre la ciencia de los datos, predicciones de los Oscares y los errores encontrados se publicó primero en unocero.

Podría también gustarte...

Deja un comentario

A %d blogueros les gusta esto: