Modelagem de padrões de sucesso no IMDb (1960-2024) usando aprendizado de máquina e otimização de hiperparâmetros

##plugins.themes.bootstrap3.article.main##

Robert Richard das Neves Correia Santos
Luís Felipe Ruas Nascimento
Victor Barbosa Gonçalves
Victor Roma Vianna Ferreira
José Augusto Theodósio Pazetti

Resumo

Este estudo analisa e modela padrões de sucesso entre os filmes mais bem avaliados no IMDb entre 1960 e 2024, utilizando aprendizado de máquina supervisionado e não supervisionado. O objetivo é compreender os fatores que explicam o desempenho crítico, comparando modelos de regressão e avaliando quanto da variação das notas IMDb pode ser explicada pelos atributos dos filmes. O pipeline foi desenvolvido em Python (Google Colab) e incluiu etapas de pré-processamento com One-Hot Encoding e Standard Scaler (Scikit-learn), redução de dimensionalidade com PCA, e agrupamento com K-Means. Para a modelagem preditiva, aplicaram-se os algoritmos KNN, SVM, Random Forest e XGBoost, com ajuste de hiperparâmetros via Optuna. As visualizações foram geradas com Matplotlib e Seaborn. Os resultados destacam o XGBoost como modelo de melhor desempenho, revelando que indicações a prêmios, duração e número de votos são as variáveis mais associadas a notas elevadas, oferecendo uma visão ampla dos fatores que caracterizam o sucesso cinematográfico ao longo das décadas.

Downloads

Não há dados estatísticos.

##plugins.themes.bootstrap3.article.details##

Como Citar
SANTOS, R. R. das N. C.; NASCIMENTO, L. F. R.; GONÇALVES, V. B.; FERREIRA, V. R. V.; PAZETTI, J. A. T. Modelagem de padrões de sucesso no IMDb (1960-2024) usando aprendizado de máquina e otimização de hiperparâmetros. Revista Datapoint, [S. l.], v. 1, n. 01, p. 60–72, 2025. DOI: 10.5281/zenodo.19240819. Disponível em: https://www.fatecrl.edu.br/revista/datapoint/index.php/dp/article/view/5. Acesso em: 19 maio. 2026.
Seção
Artigos

Referências

AMAZON WEB SERVICES. Como funciona o clustering do k-means. [S.l.]: Amazon Web Services, [s.d.]. Disponível em: https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/algo-kmeans-tech-notes.html.Acesso em: 13 nov. 2025.

B_ARCO. A evolução da tecnologia no campo audiovisual: impactos e oportunidades. 1 dez. 2023. Disponível em: https://barco.art.br/evolucao-da-tecnologia-no-campo-audiovisual/. Acesso em: 15 nov. 2025.

CANALTECH. Tudo sobre IMDb. [S.l.], [s.d.]. Disponível em: https://canaltech.com.br/empresa/imdb/. Acesso em: 10 nov. 2025.

CHARLEAUX, Lupa; TOLEDO, Victor. O que é Machine Learning? Tecnoblog, out. 2024. Disponível em: https://tecnoblog.net/responde/machine-learning-o-que-e-como-funciona-e-quais-sao-os-tipos-de-aprendizado-de-maquina/. Acesso em: 10 nov. 2025.

COELHO, Isabela da Silva Dias; FERREIRA, Marcella Meirelles; FAUSTINO, Marcus Vinícius. Machine Learning no Mundo Cinematográfico. In: UEADSL 2021.1: SUBMISSÃO DE TRABALHOS PARA O ANFITEATRO (GRADUAÇÃO E PÓS), 2021, [S.l.]. Anais [...]. [S.l.]: TextoLivre, 2021. Disponível em: https://textolivre.pro.br/mod/data/view.php?d=18&rid=533. Acesso em: 10 nov. 2025.

DUBIELLA, Larissa. Métricas de avaliação para modelos de regressão. Alura Artigos, 03 nov. 2024. Disponível em: https://www.alura.com.br/artigos/metricas-de-regressao. Acesso em: 09 nov. 2025.

HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The elements of statistical learning: data mining, inference, and prediction. 2. ed. New York: Springer, 2009.

HUNTER, John D. Matplotlib: A 2D graphics environment. Computing in Science & Engineering, v. 9, n. 3, p. 90-95, 2007.

IBM. O que é a análise de componentes principais (PCA)? [S.l.]: IBM, 2023. Disponível em: https://www.ibm.com/br-pt/think/topics/principal-component-analysis. Acesso em: 11 nov. 2025.

MERCADO FILHO, Alejandro Sigfrido. Rotten Tomatoes e IMDb: como funcionam os sites de críticas? Mega Curioso, 16 nov. 2022. Disponível em: https://www.megacurioso.com.br/artes-cultura/123509-rotten-tomatoes-e-imdb-como-funcionam-os-sites-de-criticas.htm. Acesso em: 10 nov. 2025.

OLIVEIRA, Vinícius G. de. IMDb Movies (1960-2024) - Top Rated. [S.l.]: Kaggle, 2024. Dataset. Disponível em: https://www.kaggle.com/datasets/vinciusgdeoliveira/imdb-movies-1960-2024-top-rated. Acesso em: 10 nov. 2025.

PEDREGOSA, F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, v. 12, p. 2825-2830, 2011.

PINHEIRO, João Manoel Herrera. Um estudo sobre Algoritmos de Boosting e a Otimização de Hiperparâmetros Utilizando Optuna. 2023. 147 p. Monografia (Engenharia Mecatrônica) – Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2023.

WASKOM, Michael L. Seaborn: statistical data visualization. Journal of Open Source Software, v. 6, n. 60, p. 3021, 2021.

YOKOYAMA, Naoki. Modelos de Machine Learning. Medium, 30 out. 2020. Disponível em: https://naokiyokoyama.medium.com/modelos-de-machine-learning-bcb3f8ed1513. Acesso em: 15 nov. 2025.