Oct, 2023

使用 Spark 机器学习模型对航班票价数据进行预测分析

TL;DR本论文通过利用 r2(确定系数)和 RMSE 研究了航班定价数据的预测性能和过程,结合了从 Expedia.com 获取的大型数据集,包含约 2000 万条记录或 4.68GB。该项目旨在确定在真实世界中用于预测美国境内直达航班机票价格的最佳模型。因此,良好的泛化能力和优化的处理时间是衡量模型的重要指标。通过特征重要性发现了关键业务洞见,并讨论了我们分析所使用的过程和工具。使用了四种回归机器学习算法:随机森林、梯度提升树、决策树和分解机,利用交叉验证和训练验证函数来评估性能和泛化能力。