Modeling success patterns on IMDb (1960-2024) using machine learning and hyperparameter optimization

Main Article Content

Robert Richard das Neves Correia Santos
Luís Felipe Ruas Nascimento
Victor Barbosa Gonçalves
Victor Roma Vianna Ferreira
José Augusto Theodósio Pazetti

Abstract

This study analyzes and models success patterns among the top-rated films on IMDb from 1960 to 2024 using both supervised and unsupervised machine learning approaches. The aim is to understand the factors explaining critical performance by comparing regression models and assessing how much of IMDb rating variability can be explained by film attributes. The pipeline was implemented in Python (Google Colab) and included pre-processing with One-Hot Encoding and Standard Scaler (Scikit-learn), dimensionality reduction via PCA, and clustering with K-Means. For predictive modeling, KNN, SVM, Random Forest, and XGBoost algorithms were applied, with hyperparameter tuning using Optuna. Visualizations were generated through Matplotlib and Seaborn. Results highlight XGBoost as the best-performing model, indicating that award nominations, duration, and number of votes are the strongest predictors of higher ratings, providing comprehensive insights into the factors shaping cinematic success over time.

Downloads

Download data is not yet available.

Article Details

How to Cite
SANTOS, R. R. das N. C.; NASCIMENTO, L. F. R.; GONÇALVES, V. B.; FERREIRA, V. R. V.; PAZETTI, J. A. T. Modeling success patterns on IMDb (1960-2024) using machine learning and hyperparameter optimization . Revista Datapoint, [S. l.], v. 1, n. 01, p. 60–72, 2025. DOI: 10.5281/zenodo.19240819. Disponível em: https://www.fatecrl.edu.br/revista/datapoint/index.php/dp/article/view/5. Acesso em: 19 may. 2026.
Section
Artigos

References

AMAZON WEB SERVICES. Como funciona o clustering do k-means. [S.l.]: Amazon Web Services, [s.d.]. Disponível em: https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/algo-kmeans-tech-notes.html.Acesso em: 13 nov. 2025.

B_ARCO. A evolução da tecnologia no campo audiovisual: impactos e oportunidades. 1 dez. 2023. Disponível em: https://barco.art.br/evolucao-da-tecnologia-no-campo-audiovisual/. Acesso em: 15 nov. 2025.

CANALTECH. Tudo sobre IMDb. [S.l.], [s.d.]. Disponível em: https://canaltech.com.br/empresa/imdb/. Acesso em: 10 nov. 2025.

CHARLEAUX, Lupa; TOLEDO, Victor. O que é Machine Learning? Tecnoblog, out. 2024. Disponível em: https://tecnoblog.net/responde/machine-learning-o-que-e-como-funciona-e-quais-sao-os-tipos-de-aprendizado-de-maquina/. Acesso em: 10 nov. 2025.

COELHO, Isabela da Silva Dias; FERREIRA, Marcella Meirelles; FAUSTINO, Marcus Vinícius. Machine Learning no Mundo Cinematográfico. In: UEADSL 2021.1: SUBMISSÃO DE TRABALHOS PARA O ANFITEATRO (GRADUAÇÃO E PÓS), 2021, [S.l.]. Anais [...]. [S.l.]: TextoLivre, 2021. Disponível em: https://textolivre.pro.br/mod/data/view.php?d=18&rid=533. Acesso em: 10 nov. 2025.

DUBIELLA, Larissa. Métricas de avaliação para modelos de regressão. Alura Artigos, 03 nov. 2024. Disponível em: https://www.alura.com.br/artigos/metricas-de-regressao. Acesso em: 09 nov. 2025.

HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The elements of statistical learning: data mining, inference, and prediction. 2. ed. New York: Springer, 2009.

HUNTER, John D. Matplotlib: A 2D graphics environment. Computing in Science & Engineering, v. 9, n. 3, p. 90-95, 2007.

IBM. O que é a análise de componentes principais (PCA)? [S.l.]: IBM, 2023. Disponível em: https://www.ibm.com/br-pt/think/topics/principal-component-analysis. Acesso em: 11 nov. 2025.

MERCADO FILHO, Alejandro Sigfrido. Rotten Tomatoes e IMDb: como funcionam os sites de críticas? Mega Curioso, 16 nov. 2022. Disponível em: https://www.megacurioso.com.br/artes-cultura/123509-rotten-tomatoes-e-imdb-como-funcionam-os-sites-de-criticas.htm. Acesso em: 10 nov. 2025.

OLIVEIRA, Vinícius G. de. IMDb Movies (1960-2024) - Top Rated. [S.l.]: Kaggle, 2024. Dataset. Disponível em: https://www.kaggle.com/datasets/vinciusgdeoliveira/imdb-movies-1960-2024-top-rated. Acesso em: 10 nov. 2025.

PEDREGOSA, F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, v. 12, p. 2825-2830, 2011.

PINHEIRO, João Manoel Herrera. Um estudo sobre Algoritmos de Boosting e a Otimização de Hiperparâmetros Utilizando Optuna. 2023. 147 p. Monografia (Engenharia Mecatrônica) – Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2023.

WASKOM, Michael L. Seaborn: statistical data visualization. Journal of Open Source Software, v. 6, n. 60, p. 3021, 2021.

YOKOYAMA, Naoki. Modelos de Machine Learning. Medium, 30 out. 2020. Disponível em: https://naokiyokoyama.medium.com/modelos-de-machine-learning-bcb3f8ed1513. Acesso em: 15 nov. 2025.