理解随机森林：从理论到实践

Jul, 2014

Understanding Random Forests: From Theory to Practice

Gilles Louppe

TL;DR本文对随机森林进行了深入分析，重点讨论了其学习能力、内部运作和可解释性。本文的贡献在于通过理论分析，证明了随机森林的变量重要性可解释性，从而揭示了随机森林在数据分析和机器学习中的应用潜力。

Abstract

data analysis and machine learning have become an integrative part of the modern scientific methodology, offering automated procedures for the prediction of a phenomenon based on past observations, unraveling und

data analysis machine learning random forests interpretability variable importance measures

发现论文，激发创造

随机森林模型分析

研究了随机森林模型的统计性质，证明其是一致的，适应于稀疏数据，收敛速度只与有效特征的数量有关。

May, 2010

随机森林指南

该论文综述了随机森林算法的理论和方法发展，重点讨论了参数选择、重采样机制和变量重要性测量等数学因素驱动该算法，并强调了其在分类、回归和变量重要性测量等方面的应用。

Nov, 2015

缩小差距：随机森林的理论与实践

本研究提出了一种新的随机回归森林算法，证明了其一致性，并将其与其他理论可追踪的随机森林模型及实践中使用的随机森林算法进行了比较，实验证明了不同简化随机森林模型的方法的重要性。

Oct, 2013

利用特征贡献方法解释随机森林分类模型

本研究提出了一种计算随机森林分类模型的特征贡献的方法，可以确定每个变量对单个实例的模型预测的影响，并通过分析训练数据集的特征贡献来确定最显着的变量和它们对个别类别预测的贡献模式，并阐述其在 UCI 基准数据集上的应用。

Dec, 2013

通过森林修剪提高随机森林的准确性和可解释性

通过提出两种森林修剪方法，我们的研究旨在实现既有随机森林的准确性又具有决策树的解释性，通过在给定随机森林中找出最佳子森林，再将选定的树组合在一起，实验证明我们的方法在准确性和所使用的树的数量方面优于当前先进的森林修剪方法。

Jan, 2024

随机森林的一致性

随机森林是一种通过构建多个随机决策树，通过平均聚合其预测结果的机器学习算法，可应用于广泛的预测问题并且具有较高的精度，同时支持小样本大小，高维特征空间和复杂数据结构的应对，本文在加法回归模型的情况下证明了该算法的一致性，并探究了随机森林如何很好地适应稀疏性。

May, 2014

大数据的随机森林

本文主要关注于基于分类问题的随机森林模型处理大数据问题的现有方案，并尝试了五个变体实验，探究它们的相对性能和局限性。

Nov, 2015

基于随机森林变量重要性的类别不平衡问题选择算法

在这篇论文中，研究了类平衡对随机森林变量重要性的影响，并提出了一种利用随机森林变量重要性和置信区间的变量选择算法，在实验研究中表明该算法可以有效地选择最优特征集，改善类不平衡问题的预测性能。

Dec, 2023

随机森林中的相关性和变量重要性

本篇论文针对高维回归或分类框架中预测变量高度相关的情况下的变量选择问题，研究使用随机森林算法的变量选择。论文提供了一种理论研究和模拟实验的方式，证明了使用递归特征排除算法作为排名标准对变量进行选择的高效性，并进行了陆地卫星数据集的测试。

Oct, 2013

随机森林的决定性本地解释规则

在机器学习模型中，为了避免社会伦理问题影响人们的生活，必须对决策过程进行透明解释。为此，本文提出了一种名为 LionForests 的随机森林解释技术，其提供规则作为解释，并在二元分类任务到多类别分类和回归任务中均适用，并且通过实验表明了其有效性和其与先前技术的不同之处。

Apr, 2021