评估回归模型在预测医疗保险费用方面的表现

Apr, 2023

评估回归模型在预测医疗保险费用方面的表现

Performance Evaluation of Regression Models in Predicting the Cost of Medical Insurance

Jonelle Angelo S. Cenita, Paul Richie F. Asuncion, Jayson M. Victoriano

TL;DR本研究使用三种回归模型（线性回归，梯度提升，支持向量机）来预测医疗保险成本，并以 RMSE、R Square 和 K-Fold 交叉验证为评估指标。结果表明，在这些模型中，梯度提升的 R Square 最高 0.892，RMSE 最低 1336.594。研究总结认为，梯度提升模型在这三种模型中表现最好。同时，探索性数据分析显示，最高的费用是由于吸烟这一特征引起的。

Abstract

The study aimed to evaluate the regression models' performance in predicting the cost of medical insurance. The Three (3) regression models

medical insurance regression models machine learning performance evaluation data analysis

发现论文，激发创造

医疗保险可解释成本预测的机器学习

本文研究了在医疗保健领域中应用预测建模以提高保险公司生产力和效率的潜力，通过使用三种基于回归的集成机器学习模型（Extreme Gradient Boosting、梯度提升机和随机森林）对医疗保险费用进行预测，并采用可解释的人工智能方法来发现和解释影响医疗保险费用的关键因素。研究结果表明这些模型在预测上取得了可观的成果，其中 XGBoost 模型表现最佳，但计算资源消耗更高，而 RF 模型则在预测误差较小的同时消耗较少的计算资源。同时比较了两种可解释人工智能方法在识别影响保险费用的关键特征上的结果，发现 ICE 图能更详细地展示变量之间的相互作用，而 SHAP 分析则更具概览性。希望本研究的贡献能够帮助决策者、保险公司和潜在医疗保险购买者在选择适合其需求的政策时作出正确决策。

Nov, 2023

新的回归算法的表现评估和比较

比较新提出的回归算法与传统机器学习算法（决策树、随机森林、KNN 和 XG Boost）的性能，使用平均绝对误差作为性能度量标准在各种数据集上进行深入比较，展示了新的算法具有的潜力和鲁棒性。

Jun, 2023

使用 Spark 机器学习模型对航班票价数据进行预测分析

本论文通过利用 r2（确定系数）和 RMSE 研究了航班定价数据的预测性能和过程，结合了从 Expedia.com 获取的大型数据集，包含约 2000 万条记录或 4.68GB。该项目旨在确定在真实世界中用于预测美国境内直达航班机票价格的最佳模型。因此，良好的泛化能力和优化的处理时间是衡量模型的重要指标。通过特征重要性发现了关键业务洞见，并讨论了我们分析所使用的过程和工具。使用了四种回归机器学习算法：随机森林、梯度提升树、决策树和分解机，利用交叉验证和训练验证函数来评估性能和泛化能力。

Oct, 2023

乳腺癌风险因素分析和生存预测的监督式机器学习

利用机器学习方法，比较逻辑回归、支持向量机、决策树、随机森林、极端随机树、最近邻算法和自适应增强等七种分类模型来预测基于 METABRIC 数据集中 1904 名患者记录的 5 年乳腺癌生存率。研究结果表明，这些分类器可以准确预测样品的生存率，分别为 75.4％，74.7％，71.5％，75.5％，70.3％和 78％

Apr, 2023

通过机器学习模型的比较分析改进心血管疾病预测：以心肌梗死为案例研究

心血管疾病与吸烟、血压升高和胆固醇水平的关联突出了这些危险因素的重要性。本研究使用六种不同的机器学习模型进行比较分析：Logistic 回归、支持向量机、决策树、包装法、XGBoost 和 LightGBM。结果表明，XGBoost 作为表现最佳的模型，显示了提高冠状动脉梗塞预测精确性的潜力。

Nov, 2023

使用机器学习模型进行电影收入预测

用机器学习模型预测电影收益，通过收集、预处理、分析、选择模型、评估和改进的结构化方法，构建了一个准确预测电影收益的模型，使用线性回归、决策树、随机森林回归、Bagging、XGBoosting 和 Gradient Boosting 进行训练和测试，通过超参数调整和交叉验证提高模型的准确性和泛化性，有助于电影行业做出明智的决策以最大化利润。

May, 2024

用公开的医疗保健数据构建医疗费用预测模型

利用机器学习技术基于患者诊断和人口统计学数据构建预测模型，并使用决策树方法进行预测，其结果优于先前研究的类似问题报告的结果，因此有望降低医疗保健成本。

Apr, 2023

寻找完美匹配：将回归模型应用于 ClimateBench v1.0

使用机器学习模型作为仿真器来进行气候预测是当前研究中的一个主要领域，可以帮助决策者做出明智决策。本研究侧重于评估使用非线性回归模型进行气候仿真的能力，并比较了三种非线性回归模型的效果。高斯过程回归模型在气候仿真研究中展现了卓越的性能，但在计算资源方面存在一些问题。另外，支持向量和核岭模型也取得了竞争性的结果，但需要解决一些权衡问题。此外，正在积极研究复合核和变分推断等技术，以进一步提高回归模型的性能，有效地模拟包括降水在内的复杂非线性模式。

Aug, 2023

不平衡遗传数据的改进分类和回归性能的数据预处理方法、特征选择技术和机器学习模型的比较分析

通过研究数据的预处理、特征选择技术和模型选择对机器学习模型在基因数据集上的性能进行了调查，发现在回归任务中，异常值或偏斜的预测变量和目标变量对模型性能没有造成挑战；而分类任务中，类别不平衡的目标变量和偏斜的预测变量对性能几乎没有影响。随机森林是解决类别不平衡回归任务的最佳模型。尽管该研究以基因数据集为例，但其发现可推广到任何类似数据集。

Feb, 2024

利用深度学习、机器学习和统计方法进行生存分析：预测住院后死亡的比较分析

应用不同的生存分析方法比较其性能，结果表明深度学习（DeepSurv）在歧视度和校准性方面表现最佳，而 AutoScore-Survival 则通过最小变量集实现了较好的性能和解释性。

Mar, 2024