随机森林中的预测误差估计

Sep, 2023

Prediction Error Estimation in Random Forests

Ian Krupkin, Johanna Hardin

TL;DR分类随机森林的误差估计量进行了定量评估，结果显示在不同的误差估计方法中，随机森林的预测误差估计更接近真实误差率而不是平均预测误差率。

Abstract

In this paper, error estimates of classification random forests are quantitatively assessed. Based on the initial theoretical framework built by Bates et al. (2023), the →

error estimates classification random forests true error rate expected error rate error estimation methods

发现论文，激发创造

通过置信区间和假设检验对随机森林中的不确定性进行量化

本文提出针对机器学习集成方法的正式统计推断程序，重点在于利用样本的子样本进行 U - 统计的预测，进而提供置信区间，以及作为检验功能、估计方差等应用。

Apr, 2014

缩小差距：随机森林的理论与实践

本研究提出了一种新的随机回归森林算法，证明了其一致性，并将其与其他理论可追踪的随机森林模型及实践中使用的随机森林算法进行了比较，实验证明了不同简化随机森林模型的方法的重要性。

Oct, 2013

随机森林中的不确定性：演化不确定性和认知不确定性

这篇论文介绍了机器学习中不确定性的概念及其研究应用。研究者通过随机森林及决策树来量化学习器的混淆不确定性及知识不确定性，并将其与深度神经网络进行了比较。

Jan, 2020

推广随机森林参数优化以包括稳定性和成本

该论文提出一种基于贝叶斯优化的多准则优化框架，以平衡 “随机森林” 分类和回归模型的错误率、预测的稳定性和计算成本。作者表示，在实际应用中，通过优化错误率来选择最优参数的方法可能会引入不必要的成本，而使用该框架可得到不同于错误率优化的参数设置。

Jun, 2017

在不确定性下结合预测：随机决策树的案例

本研究探讨了多个概率预测方法，包括基于信任函数和可靠分类的方法以及我们称之为证据累加的原则。实验结果表明证据累加的效果优于投票和取平均值的方法，特别是在中等规模的叶子节点上。

Aug, 2022

随机森林和过拟合的理解：可视化和仿真研究

随机森林被用于临床风险预测模型，本研究以卵巢恶性肿瘤预测为案例，通过三个真实案例和一个模拟研究，通过二维分布热图和训练数据的概率峰值将风险估计进行可视化，模拟研究结果表明随机森林模型学习到训练集中的概率峰值，训练集上的 c-statistics 接近 1 且测试集上效果显著。

Feb, 2024

使用随机森林预测股市价格走向

使用随机森林分类器等机器学习算法，通过对技术指标进行特征筛选，进行股价预测，预测效果优于已有文献中现有的算法。

Apr, 2016

随机森林的代价复杂度剪枝

通过使用 out-of-bag 样本来提高随机森林的泛化误差表现。对 UCI 数据库中的四个数据集进行的初步实证研究表明，随机森林的规模有所减小，而精度损失不大。

Mar, 2017

随机森林模型分析

研究了随机森林模型的统计性质，证明其是一致的，适应于稀疏数据，收敛速度只与有效特征的数量有关。

May, 2010

随机森林稳定性及随机森林预测区间覆盖率

我们证明了在 $Y^2$ 没有重尾的温和条件下，随机森林的稳定性，并使用这一性质证明了从随机森林的袋外误差构建的预测区间的非渐进覆盖概率的下界。我们还讨论了在比先前文献中考虑的条件更弱的假设下的渐近覆盖概率。我们的工作表明，随机森林具有稳定性属性，是一种有效的机器学习方法，不仅可以提供令人满意的点预测，还可以以几乎没有额外计算成本来提供合理的区间预测。

Oct, 2023