使用机器学习模型进行电影收入预测

May, 2024

使用机器学习模型进行电影收入预测

Movie Revenue Prediction using Machine Learning Models

Vikranth Udandarao, Pratyush Gupta

TL;DR用机器学习模型预测电影收益，通过收集、预处理、分析、选择模型、评估和改进的结构化方法，构建了一个准确预测电影收益的模型，使用线性回归、决策树、随机森林回归、Bagging、XGBoosting 和 Gradient Boosting 进行训练和测试，通过超参数调整和交叉验证提高模型的准确性和泛化性，有助于电影行业做出明智的决策以最大化利润。

Abstract

In the contemporary film industry, accurately predicting a movie's earnings is paramount for maximizing profitability. This project aims to develop a machine learning model for predicting →

movie earnings machine learning model predictive model feature selection profitability

发现论文，激发创造

电影成功的早期预测：盈利的人、事、时

这篇论文提出了一个决策支持系统，利用从各种来源获得的历史数据、社交网络分析和文本挖掘技术，自动提取多组数据特征，包括 “谁” 在演员阵容中，“电影” 讲述的内容，“何时” 上映以及匹配 “谁” 和 “何时” 与 “电影” 相关的特征，从而预测电影的利润，实验证明此系统在预测电影利润方面的性能大大优于基准方法，同时其所提出的新特征也对电影利润预测做出了重要贡献。此外，对于电影利润的关键因素的分析也可能对团队绩效和创意工作的成功的理论研究产生影响。

Jun, 2015

机器学习算法和特征提取技术的可预测性

本论文研究了基于矩阵分解的预测系统，旨在预测特定数据集上特定模型的分类准确性。通过超过 50 个数据集的全面实证研究，着重于研究三种基础机器学习算法（随机森林、XGBoost 和 MLP）的性能预测，包括粗调和变体微调模型的可预测性，利用特征提取技术实现 MLP 的可预测性，以及使用隐式反馈来预测模型性能。

Apr, 2023

预测谁将换工作

人力资源部门面临预测申请人是否寻找新工作或留在公司的挑战。本论文讨论了机器学习如何用于预测谁将转到新工作，采用数据预处理以适合机器学习模型，处理分类特征，应用数据编码和多个机器学习算法，包括随机森林、逻辑回归、决策树和极端梯度提升。为提高机器学习模型的性能，使用合成少数类过采样技术 (SMOTE) 进行改进，采用决策支持指标，如精确度、召回率、F1-Score 和准确度进行评估。

Sep, 2023

使用 Spark 机器学习模型对航班票价数据进行预测分析

本论文通过利用 r2（确定系数）和 RMSE 研究了航班定价数据的预测性能和过程，结合了从 Expedia.com 获取的大型数据集，包含约 2000 万条记录或 4.68GB。该项目旨在确定在真实世界中用于预测美国境内直达航班机票价格的最佳模型。因此，良好的泛化能力和优化的处理时间是衡量模型的重要指标。通过特征重要性发现了关键业务洞见，并讨论了我们分析所使用的过程和工具。使用了四种回归机器学习算法：随机森林、梯度提升树、决策树和分解机，利用交叉验证和训练验证函数来评估性能和泛化能力。

Oct, 2023

评估回归模型在预测医疗保险费用方面的表现

本研究使用三种回归模型（线性回归，梯度提升，支持向量机）来预测医疗保险成本，并以 RMSE、R Square 和 K-Fold 交叉验证为评估指标。结果表明，在这些模型中，梯度提升的 R Square 最高 0.892，RMSE 最低 1336.594。研究总结认为，梯度提升模型在这三种模型中表现最好。同时，探索性数据分析显示，最高的费用是由于吸烟这一特征引起的。

Apr, 2023

足球比赛结果预测的机器学习

机器学习在足球比赛结果预测中已成为一种常见方法，本章讨论了该领域中可用的数据集、模型类型和特征以及评估模型性能的方法。研究发现，目前基于渐变提升树模型（如 CatBoost）和特定于足球比赛的评分（如 pi - 评分）的机器学习模型在只包含进球作为比赛特征的数据集上表现最佳，但需要更详细比较深度学习模型和随机森林在不同类型特征数据集上的性能。此外，可以进一步研究新的评分系统，其中包括球员和团队级别信息，并融合来自时空追踪和事件数据的附加信息。最后，需要提高比赛结果预测模型的可解释性，以使其对团队管理更有用。

Mar, 2024

利用外生变量和机器学习算法进行短期股票价格预测

追溯 2020 年 3 月至 2022 年 5 月的短期内，该研究比较了四种机器学习模型在预测纽约证券交易所三支知名股票的准确性，并发现 XGBoost 模型虽然运行时间较长（最多 10 秒），但提供了最高的准确性。

May, 2023

机器学习算法预测马达加斯加实际国内生产总值

研究探讨不同机器学习算法在现在预测马达加斯加国内生产总值 (GDP) 方面的预测能力。我们使用 10 个马达加斯加季度宏观经济领先指标，对流行的回归模型进行训练，包括线性正则化回归 (Ridge，Lasso，Elastic-net)，维度约简模型 (主成分回归)，k 最近邻算法 (k-NN 回归)，支持向量回归 (线性 SVR)，以及基于树的集成模型 (Random Forest 和 XGBoost 回归)，并使用简单的计量经济模型作为基准。通过计算均方根误差 (RMSE)，平均绝对误差 (MAE) 和平均绝对百分比误差 (MAPE) 来衡量每个模型的现在预测准确性。我们的发现表明，通过汇总个体预测形成的集成模型始终优于传统计量经济模型。我们得出结论，机器学习模型可以更准确和及时地预测马达加斯加的经济表现，并为决策者提供数据驱动的决策指导。

Dec, 2023

电影工业的数据驱动投资组合管理：一种利用大型语言模型作为专家的新数据驱动优化方法论

通过计算明星的名气分数并采用多属性决策方法，本研究设计了一个优化投资组合，以解决电影工业领域中投资组合管理的问题。将项目根据其不对称特征进行分类，并对每个类别的项目进行票房预测，最终通过双目标优化模型确定了经销商的首选项目。

Apr, 2024

医疗保险可解释成本预测的机器学习

本文研究了在医疗保健领域中应用预测建模以提高保险公司生产力和效率的潜力，通过使用三种基于回归的集成机器学习模型（Extreme Gradient Boosting、梯度提升机和随机森林）对医疗保险费用进行预测，并采用可解释的人工智能方法来发现和解释影响医疗保险费用的关键因素。研究结果表明这些模型在预测上取得了可观的成果，其中 XGBoost 模型表现最佳，但计算资源消耗更高，而 RF 模型则在预测误差较小的同时消耗较少的计算资源。同时比较了两种可解释人工智能方法在识别影响保险费用的关键特征上的结果，发现 ICE 图能更详细地展示变量之间的相互作用，而 SHAP 分析则更具概览性。希望本研究的贡献能够帮助决策者、保险公司和潜在医疗保险购买者在选择适合其需求的政策时作出正确决策。

Nov, 2023