随机森林中的预测误差估计
本文提出针对机器学习集成方法的正式统计推断程序,重点在于利用样本的子样本进行 U - 统计的预测,进而提供置信区间,以及作为检验功能、估计方差等应用。
Apr, 2014
本研究提出了一种新的随机回归森林算法,证明了其一致性,并将其与其他理论可追踪的随机森林模型及实践中使用的随机森林算法进行了比较,实验证明了不同简化随机森林模型的方法的重要性。
Oct, 2013
这篇论文介绍了机器学习中不确定性的概念及其研究应用。研究者通过随机森林及决策树来量化学习器的混淆不确定性及知识不确定性,并将其与深度神经网络进行了比较。
Jan, 2020
该论文提出一种基于贝叶斯优化的多准则优化框架,以平衡 “随机森林” 分类和回归模型的错误率、预测的稳定性和计算成本。作者表示,在实际应用中,通过优化错误率来选择最优参数的方法可能会引入不必要的成本,而使用该框架可得到不同于错误率优化的参数设置。
Jun, 2017
本研究探讨了多个概率预测方法,包括基于信任函数和可靠分类的方法以及我们称之为证据累加的原则。实验结果表明证据累加的效果优于投票和取平均值的方法,特别是在中等规模的叶子节点上。
Aug, 2022
随机森林被用于临床风险预测模型,本研究以卵巢恶性肿瘤预测为案例,通过三个真实案例和一个模拟研究,通过二维分布热图和训练数据的概率峰值将风险估计进行可视化,模拟研究结果表明随机森林模型学习到训练集中的概率峰值,训练集上的 c-statistics 接近 1 且测试集上效果显著。
Feb, 2024
通过使用 out-of-bag 样本来提高随机森林的泛化误差表现。对 UCI 数据库中的四个数据集进行的初步实证研究表明,随机森林的规模有所减小,而精度损失不大。
Mar, 2017
我们证明了在 $Y^2$ 没有重尾的温和条件下,随机森林的稳定性,并使用这一性质证明了从随机森林的袋外误差构建的预测区间的非渐进覆盖概率的下界。我们还讨论了在比先前文献中考虑的条件更弱的假设下的渐近覆盖概率。我们的工作表明,随机森林具有稳定性属性,是一种有效的机器学习方法,不仅可以提供令人满意的点预测,还可以以几乎没有额外计算成本来提供合理的区间预测。
Oct, 2023