大数据的随机森林

Nov, 2015

Random Forests for Big Data

Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot, Nathalie Villa-Vialaneix

TL;DR本文主要关注于基于分类问题的随机森林模型处理大数据问题的现有方案，并尝试了五个变体实验，探究它们的相对性能和局限性。

Abstract

big data is one of the major challenges of statistical science and has numerous consequences from algorithmic and theoretical viewpoints. big data always involve massive data but they also often include online da

big data random forests nonparametric statistical method parallel implementations online learning

发现论文，激发创造

随机森林指南

该论文综述了随机森林算法的理论和方法发展，重点讨论了参数选择、重采样机制和变量重要性测量等数学因素驱动该算法，并强调了其在分类、回归和变量重要性测量等方面的应用。

Nov, 2015

随机森林模型分析

研究了随机森林模型的统计性质，证明其是一致的，适应于稀疏数据，收敛速度只与有效特征的数量有关。

May, 2010

随机森林的一致性

随机森林是一种通过构建多个随机决策树，通过平均聚合其预测结果的机器学习算法，可应用于广泛的预测问题并且具有较高的精度，同时支持小样本大小，高维特征空间和复杂数据结构的应对，本文在加法回归模型的情况下证明了该算法的一致性，并探究了随机森林如何很好地适应稀疏性。

May, 2014

蒙德里安森林：高效的在线随机森林

通过蒙德里安过程（Mondrian Processes），构建的增量 / 在线 Mondrian Forests 能够实现与在线随机森林算法和定期重新训练的批量随机森林算法的有竞争力的预测性能，并且速度更快，从而代表更好的计算与准确性权衡。

Jun, 2014

理解随机森林：从理论到实践

本文对随机森林进行了深入分析，重点讨论了其学习能力、内部运作和可解释性。本文的贡献在于通过理论分析，证明了随机森林的变量重要性可解释性，从而揭示了随机森林在数据分析和机器学习中的应用潜力。

Jul, 2014

随机森林的代价复杂度剪枝

通过使用 out-of-bag 样本来提高随机森林的泛化误差表现。对 UCI 数据库中的四个数据集进行的初步实证研究表明，随机森林的规模有所减小，而精度损失不大。

Mar, 2017

神经随机森林

将随机回归树方法改成了一个新的神经网络模型，称为神经随机森林。基于随机回归树的架构利用了先验知识并具有更少的参数，较少的限制设计决策路径和优秀的表现使得方法可用于多样的预测问题。

Apr, 2016

广义随机森林

该研究提出了广义随机森林方法，用于基于随机森林进行非参数统计估计，可以用于拟合任何被识别为满足一组局部矩方程的解的感兴趣数量，提出了一种灵活且计算有效的算法以及新的非参数回归，条件平均偏差估计和异质性治疗效应估计方法，通过本研究可用 GRF 软件实现。

Oct, 2016

随机化可以降低偏差和方差：随机森林的案例研究

我们研究了随机森林相对于 bagging 方法减少偏差的现象，并通过实证研究发现在数据中存在模式时，随机森林在高信噪比情况下减少了偏差和方差，并优于 bagging 方法。对于随机森林中的随机性注入和参数调整也提供了实用的洞见。

Feb, 2024

缩小差距：随机森林的理论与实践

本研究提出了一种新的随机回归森林算法，证明了其一致性，并将其与其他理论可追踪的随机森林模型及实践中使用的随机森林算法进行了比较，实验证明了不同简化随机森林模型的方法的重要性。

Oct, 2013