通过置信区间和假设检验对随机森林中的不确定性进行量化

Apr, 2014

通过置信区间和假设检验对随机森林中的不确定性进行量化

Quantifying Uncertainty in Random Forests via Confidence Intervals and Hypothesis Tests

Lucas Mentch, Giles Hooker

TL;DR本文提出针对机器学习集成方法的正式统计推断程序，重点在于利用样本的子样本进行 U - 统计的预测，进而提供置信区间，以及作为检验功能、估计方差等应用。

Abstract

This work develops formal statistical inference procedures for machine learning ensemble methods. ensemble methods based on bootstrapping,

machine learning ensemble methods formal statistical inference subsamples u-statistics

发现论文，激发创造

随机森林中的预测误差估计

分类随机森林的误差估计量进行了定量评估，结果显示在不同的误差估计方法中，随机森林的预测误差估计更接近真实误差率而不是平均预测误差率。

Sep, 2023

随机森林稳定性及随机森林预测区间覆盖率

我们证明了在 $Y^2$ 没有重尾的温和条件下，随机森林的稳定性，并使用这一性质证明了从随机森林的袋外误差构建的预测区间的非渐进覆盖概率的下界。我们还讨论了在比先前文献中考虑的条件更弱的假设下的渐近覆盖概率。我们的工作表明，随机森林具有稳定性属性，是一种有效的机器学习方法，不仅可以提供令人满意的点预测，还可以以几乎没有额外计算成本来提供合理的区间预测。

Oct, 2023

在不确定性下结合预测：随机决策树的案例

本研究探讨了多个概率预测方法，包括基于信任函数和可靠分类的方法以及我们称之为证据累加的原则。实验结果表明证据累加的效果优于投票和取平均值的方法，特别是在中等规模的叶子节点上。

Aug, 2022

利用随机森林估计和推断异质性处理效应

本文介绍了一种非参数因果森林方法，用于估计异质性处理效应，并讨论了一种实用方法以构建渐近置信区间来评估真实处理效应，结果表明在存在无关协变量的情况下，因果森林方法比最近邻匹配等经典方法更为有效。

Oct, 2015

随机森林中的不确定性：演化不确定性和认知不确定性

这篇论文介绍了机器学习中不确定性的概念及其研究应用。研究者通过随机森林及决策树来量化学习器的混淆不确定性及知识不确定性，并将其与深度神经网络进行了比较。

Jan, 2020

广义随机森林

该研究提出了广义随机森林方法，用于基于随机森林进行非参数统计估计，可以用于拟合任何被识别为满足一组局部矩方程的解的感兴趣数量，提出了一种灵活且计算有效的算法以及新的非参数回归，条件平均偏差估计和异质性治疗效应估计方法，通过本研究可用 GRF 软件实现。

Oct, 2016

高维回归的置信区间和假设检验

该文提出了一个新颖的算法，用于构建自然参数的置信区间和 p 值，并使用高维线性回归问题和一个高通量基因组数据集进行测试。

Jun, 2013

概率回归树集成

该研究使用基于树的集成方法，如随机森林、梯度提升树和贝叶斯增加回归树，在许多应用和研究中成功地用于回归问题。本文研究了概率回归树的集成版本，通过将每个观测分配到相对应的概率分布区域，为目标函数提供平滑逼近。我们证明了所考虑的概率回归树的集成版本是一致的，并在实验中研究了它们的偏差 - 方差折衷，并与最先进的性能预测方法进行比较。

Jun, 2024

随机森林的代价复杂度剪枝

通过使用 out-of-bag 样本来提高随机森林的泛化误差表现。对 UCI 数据库中的四个数据集进行的初步实证研究表明，随机森林的规模有所减小，而精度损失不大。

Mar, 2017

大数据的随机森林

本文主要关注于基于分类问题的随机森林模型处理大数据问题的现有方案，并尝试了五个变体实验，探究它们的相对性能和局限性。

Nov, 2015