使用深度生成森林进行鲁棒分类

ICMLJul, 2020

Towards Robust Classification with Deep Generative Forests

Alvaro H. C. Correia, Robert Peharz, Cassio de Campos

TL;DR本文介绍了一种新的深度概率模型，叫作 “生成森林”，这种模型将随机森林扩展到了生成模型，可以表示整个特征空间上的联合分布，解决了判别模型缺乏处理预测不确定性方法的问题，并且可以测量每个预测的稳健性和检测分布外的样本。

Abstract

decision trees and random forests are among the most widely used machine learning models, and often achieve state-of-the-art performance in tabular, domain-agnostic datasets. Nonetheless, being primarily discrimi

decision trees random forests generative forests deep probabilistic models uncertainty

发现论文，激发创造

随机森林中的节点

本文将决策树和随机森林重新解释为生成模型，从而引入了一种能够处理缺失数据和异常检测的新型混合生成 - 判别模型族。通过在实验中与 K 近邻插补等处理缺失数据的方法进行比较，我们发现该模型能够自然地处理数据缺失和异常值检测。

Jun, 2020

随机森林中的不确定性：演化不确定性和认知不确定性

这篇论文介绍了机器学习中不确定性的概念及其研究应用。研究者通过随机森林及决策树来量化学习器的混淆不确定性及知识不确定性，并将其与深度神经网络进行了比较。

Jan, 2020

基于神经网络体系结构的通用决策树集成：分布式梯度提升森林 (DGBF)

决策树组合算法（如 RandomForest 和 GradientBoosting）在对于离散或表格数据进行建模方面是主导方法，但是由于它们无法像神经网络那样从原始数据中进行层次化表示学习，因此限制了其在深度学习问题和建模非结构化数据方面的应用。然而，本研究表明通过将 bagging 和 boosting 的数学形式结合起来，可以定义一个具有分布式表示学习过程的图结构树集成算法，并且不需要使用反向传播算法，我们称之为分布式梯度提升森林（DGBF）。最后，我们发现分布式学习在 9 个数据集中的 7 个中表现优于 RandomForest 和 GradientBoosting。

Feb, 2024

概率随机森林：一种用于嘈杂数据集的机器学习算法

本研究修改了基于随机森林 (Random Forest，RF) 的算法，提出了一种新的基于概率随机森林 (Probabilistic Random Forest，PRF) 的机器学习算法，用于处理带有不确定性的天文数据，能够有效提高分类准确性以及应用于转移学习。

Nov, 2018

对抗性随机森林用于密度估计和生成建模

本文提出了使用无监督随机森林的新型密度估计和数据合成方法。通过交替的生成和区分，树逐渐学习到数据的结构属性。与经典的基于树的替代方案不同，我们的方法提供平滑的（非）条件密度并允许完全合成数据生成。在执行速度平均快大约两个数量级的同时，我们在各种表格数据基准测试上实现了与最先进的概率电路和深度学习模型可比或更好的性能。

May, 2022

随机森林和核方法

本文探讨随机森林和核方法的联系，提出了基于随机森林的核方法 KeRF，KeRF 比随机森林更易于解释和分析，并通过实验证明了 KeRF 估计比随机森林估计更具优势。

Feb, 2015

复杂地形下用分布式回归森林进行降雨概率预测

提出了一种将回归树与随机森林与经典 GAMLSS 框架中的分布并置合并的分布回归树和随机森林框架，以用于变量选择和建模非平滑依赖关系或高阶交互作用的情况，将其应用于大量气象预测数据生成的降水概率预测，并发现这种方法可以自动选择变量和交互作用，性能与计算成本高的提前预测信息或增强方法 GAMLSS 的性能相当甚至更好。

Apr, 2018

一种新的基于直觉模糊决策树的随机森林集成

本文提出了一种基于直觉模糊随机森林（IFRF）的新型随机森林集成方法，结合了模糊逻辑和模糊集合的灵活性、随机抽样和特征选择的随机性以及多个分类器系统的鲁棒性，对复杂条件下的分类问题具有竞争力和优越性能。该方法通过使用直觉模糊信息增益选择特征并考虑信息传递中的犹豫性，在集成学习中使用直觉模糊决策树（IFDT），并通过广泛实验验证其优势。本研究首次提出了基于直觉模糊理论的随机森林集成算法。

Mar, 2024

当不确定性成为问题时，使用蒙德里安森林进行大规模回归

本文介绍了在大规模非参数回归设置中将蒙德里安森林扩展到使用新颖的分层高斯先验，从而获得基于原则的不确定性估计，同时保留决策森林的计算优势。通过使用说明性例子、现实世界中的大规模数据集和贝叶斯优化基准，证明了 Mondrian 森林优于近似 GPs 的大规模回归任务，并提供了比基于决策森林的方法更好的校准不确定性评估。

Jun, 2015

概率回归树集成

该研究使用基于树的集成方法，如随机森林、梯度提升树和贝叶斯增加回归树，在许多应用和研究中成功地用于回归问题。本文研究了概率回归树的集成版本，通过将每个观测分配到相对应的概率分布区域，为目标函数提供平滑逼近。我们证明了所考虑的概率回归树的集成版本是一致的，并在实验中研究了它们的偏差 - 方差折衷，并与最先进的性能预测方法进行比较。

Jun, 2024