Modelagem de padrões de sucesso no IMDb (1960-2024) usando aprendizado de máquina e otimização de hiperparâmetros
##plugins.themes.bootstrap3.article.main##
Resumo
Este estudo analisa e modela padrões de sucesso entre os filmes mais bem avaliados no IMDb entre 1960 e 2024, utilizando aprendizado de máquina supervisionado e não supervisionado. O objetivo é compreender os fatores que explicam o desempenho crítico, comparando modelos de regressão e avaliando quanto da variação das notas IMDb pode ser explicada pelos atributos dos filmes. O pipeline foi desenvolvido em Python (Google Colab) e incluiu etapas de pré-processamento com One-Hot Encoding e Standard Scaler (Scikit-learn), redução de dimensionalidade com PCA, e agrupamento com K-Means. Para a modelagem preditiva, aplicaram-se os algoritmos KNN, SVM, Random Forest e XGBoost, com ajuste de hiperparâmetros via Optuna. As visualizações foram geradas com Matplotlib e Seaborn. Os resultados destacam o XGBoost como modelo de melhor desempenho, revelando que indicações a prêmios, duração e número de votos são as variáveis mais associadas a notas elevadas, oferecendo uma visão ampla dos fatores que caracterizam o sucesso cinematográfico ao longo das décadas.
Downloads
##plugins.themes.bootstrap3.article.details##

Este trabalho está licenciado sob uma licença Creative Commons Attribution 4.0 International License.
Os direitos autorais dos artigos publicados pertencem à Revista Datapoint e seguem o padrão Creative Commons (CC BY), que permite o remixe, adaptação e criação de obras derivadas do original, mesmo para fins comerciais. As novas obras devem conter menção ao(s) autor(es) nos créditos.
Referências
AMAZON WEB SERVICES. Como funciona o clustering do k-means. [S.l.]: Amazon Web Services, [s.d.]. Disponível em: https://docs.aws.amazon.com/pt_br/sagemaker/latest/dg/algo-kmeans-tech-notes.html.Acesso em: 13 nov. 2025.
B_ARCO. A evolução da tecnologia no campo audiovisual: impactos e oportunidades. 1 dez. 2023. Disponível em: https://barco.art.br/evolucao-da-tecnologia-no-campo-audiovisual/. Acesso em: 15 nov. 2025.
CANALTECH. Tudo sobre IMDb. [S.l.], [s.d.]. Disponível em: https://canaltech.com.br/empresa/imdb/. Acesso em: 10 nov. 2025.
CHARLEAUX, Lupa; TOLEDO, Victor. O que é Machine Learning? Tecnoblog, out. 2024. Disponível em: https://tecnoblog.net/responde/machine-learning-o-que-e-como-funciona-e-quais-sao-os-tipos-de-aprendizado-de-maquina/. Acesso em: 10 nov. 2025.
COELHO, Isabela da Silva Dias; FERREIRA, Marcella Meirelles; FAUSTINO, Marcus Vinícius. Machine Learning no Mundo Cinematográfico. In: UEADSL 2021.1: SUBMISSÃO DE TRABALHOS PARA O ANFITEATRO (GRADUAÇÃO E PÓS), 2021, [S.l.]. Anais [...]. [S.l.]: TextoLivre, 2021. Disponível em: https://textolivre.pro.br/mod/data/view.php?d=18&rid=533. Acesso em: 10 nov. 2025.
DUBIELLA, Larissa. Métricas de avaliação para modelos de regressão. Alura Artigos, 03 nov. 2024. Disponível em: https://www.alura.com.br/artigos/metricas-de-regressao. Acesso em: 09 nov. 2025.
HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The elements of statistical learning: data mining, inference, and prediction. 2. ed. New York: Springer, 2009.
HUNTER, John D. Matplotlib: A 2D graphics environment. Computing in Science & Engineering, v. 9, n. 3, p. 90-95, 2007.
IBM. O que é a análise de componentes principais (PCA)? [S.l.]: IBM, 2023. Disponível em: https://www.ibm.com/br-pt/think/topics/principal-component-analysis. Acesso em: 11 nov. 2025.
MERCADO FILHO, Alejandro Sigfrido. Rotten Tomatoes e IMDb: como funcionam os sites de críticas? Mega Curioso, 16 nov. 2022. Disponível em: https://www.megacurioso.com.br/artes-cultura/123509-rotten-tomatoes-e-imdb-como-funcionam-os-sites-de-criticas.htm. Acesso em: 10 nov. 2025.
OLIVEIRA, Vinícius G. de. IMDb Movies (1960-2024) - Top Rated. [S.l.]: Kaggle, 2024. Dataset. Disponível em: https://www.kaggle.com/datasets/vinciusgdeoliveira/imdb-movies-1960-2024-top-rated. Acesso em: 10 nov. 2025.
PEDREGOSA, F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, v. 12, p. 2825-2830, 2011.
PINHEIRO, João Manoel Herrera. Um estudo sobre Algoritmos de Boosting e a Otimização de Hiperparâmetros Utilizando Optuna. 2023. 147 p. Monografia (Engenharia Mecatrônica) – Escola de Engenharia de São Carlos, Universidade de São Paulo, São Carlos, 2023.
WASKOM, Michael L. Seaborn: statistical data visualization. Journal of Open Source Software, v. 6, n. 60, p. 3021, 2021.
YOKOYAMA, Naoki. Modelos de Machine Learning. Medium, 30 out. 2020. Disponível em: https://naokiyokoyama.medium.com/modelos-de-machine-learning-bcb3f8ed1513. Acesso em: 15 nov. 2025.