随机森林是一种通过构建多个随机决策树,通过平均聚合其预测结果的机器学习算法,可应用于广泛的预测问题并且具有较高的精度,同时支持小样本大小,高维特征空间和复杂数据结构的应对,本文在加法回归模型的情况下证明了该算法的一致性,并探究了随机森林如何很好地适应稀疏性。
May, 2014
研究了随机森林模型的统计性质,证明其是一致的,适应于稀疏数据,收敛速度只与有效特征的数量有关。
May, 2010
该研究使用基于树的集成方法,如随机森林、梯度提升树和贝叶斯增加回归树,在许多应用和研究中成功地用于回归问题。本文研究了概率回归树的集成版本,通过将每个观测分配到相对应的概率分布区域,为目标函数提供平滑逼近。我们证明了所考虑的概率回归树的集成版本是一致的,并在实验中研究了它们的偏差 - 方差折衷,并与最先进的性能预测方法进行比较。
Jun, 2024
决策树组合算法(如 RandomForest 和 GradientBoosting)在对于离散或表格数据进行建模方面是主导方法,但是由于它们无法像神经网络那样从原始数据中进行层次化表示学习,因此限制了其在深度学习问题和建模非结构化数据方面的应用。然而,本研究表明通过将 bagging 和 boosting 的数学形式结合起来,可以定义一个具有分布式表示学习过程的图结构树集成算法,并且不需要使用反向传播算法,我们称之为分布式梯度提升森林(DGBF)。最后,我们发现分布式学习在 9 个数据集中的 7 个中表现优于 RandomForest 和 GradientBoosting。
Feb, 2024
本文探讨随机森林和核方法的联系,提出了基于随机森林的核方法 KeRF,KeRF 比随机森林更易于解释和分析,并通过实验证明了 KeRF 估计比随机森林估计更具优势。
Feb, 2015
该论文综述了随机森林算法的理论和方法发展,重点讨论了参数选择、重采样机制和变量重要性测量等数学因素驱动该算法,并强调了其在分类、回归和变量重要性测量等方面的应用。
Nov, 2015
本文主要关注于基于分类问题的随机森林模型处理大数据问题的现有方案,并尝试了五个变体实验,探究它们的相对性能和局限性。
通过蒙德里安过程(Mondrian Processes),构建的增量 / 在线 Mondrian Forests 能够实现与在线随机森林算法和定期重新训练的批量随机森林算法的有竞争力的预测性能,并且速度更快,从而代表更好的计算与准确性权衡。
Jun, 2014
本研究提出了一种新的随机回归森林算法,证明了其一致性,并将其与其他理论可追踪的随机森林模型及实践中使用的随机森林算法进行了比较,实验证明了不同简化随机森林模型的方法的重要性。
Oct, 2013
提出了一种名为前瞻性深度学习的通用框架,它可以泛化深度神经网络的架构灵活性和复杂性,而且可以适应性地加深网络以提高结果,同时演示了以决策树代替深度神经网络的证明概念,并在 MNIST 数据集上应用。
May, 2017