随机森林的机器反学习

ICMLSep, 2020

Machine Unlearning for Random Forests

Jonathan Brophy, Daniel Lowd

TL;DR本文介绍了一种基于随机森林的数据删除技术，该技术使用了随机节点和缓存统计数据等方法以实现高效数据删除，并能在不牺牲预测能力的情况下，精确地删除训练数据。

Abstract

Responding to user data deletion requests, removing noisy examples, or deleting corrupted training data are just a few reasons for wanting to delete instances from a machine learning (ML) model. However, efficien

data removal machine learning random forests training data efficiency

发现论文，激发创造

利用机器去学习的方式为随机森林提供基于实例的解释

通过利用机器反学习方法，FairDebugger 能够识别造成随机森林分类器结果不公平的训练数据子集，并生成前 k 个解释（以一致的训练数据子集形式）来解释模型的不公平行为。

Feb, 2024

TREE：树正则化用于高效执行

通过奖励不均匀概率分布来减少决策树路径长度，优化决策树的内存架构感知实现以降低执行时间。

Jun, 2024

随机森林中的节点

本文将决策树和随机森林重新解释为生成模型，从而引入了一种能够处理缺失数据和异常检测的新型混合生成 - 判别模型族。通过在实验中与 K 近邻插补等处理缺失数据的方法进行比较，我们发现该模型能够自然地处理数据缺失和异常值检测。

Jun, 2020

DeRDaVa: 机器学习的删除容忍数据估值

数据估值与个人数据所有权、数据保护法规、DeRDaVa 和风险厌恶 / 寻求模型所有者等相关，我们提出了一种数据估值框架 DeRDaVa，并将其推广到 Risk-DeRDaVa，以适应风险厌恶 / 寻求模型所有者的需求，并进行了实证研究。

Dec, 2023

使用算法回溯学习决策树和随机森林

该论文提出了一种新算法，用于学习准确的基于树的模型，同时确保存在补救措施行动。

Jun, 2024

使用深度生成森林进行鲁棒分类

本文介绍了一种新的深度概率模型，叫作 “生成森林”，这种模型将随机森林扩展到了生成模型，可以表示整个特征空间上的联合分布，解决了判别模型缺乏处理预测不确定性方法的问题，并且可以测量每个预测的稳健性和检测分布外的样本。

Jul, 2020

大数据的随机森林

本文主要关注于基于分类问题的随机森林模型处理大数据问题的现有方案，并尝试了五个变体实验，探究它们的相对性能和局限性。

Nov, 2015

深度可微随机森林用于年龄估计

该研究提出了两种基于深度可微随机森林方法的年龄估计模型：Deep Label Distribution Learning Forest 和 Deep Regression Forest，通过对分割节点和叶节点进行交替优化学习更好的树形参数估计，取得了三个年龄估计数据集上最优的性能表现。

Jul, 2019

机器学习模型中用于识别分布外数据的减少鲁棒性随机切割森林

本文介绍了一种使用 Reduced Robust Random Cut Forest (RRRCF) 数据结构的新方法来检测数据集是否处于训练分布，该方法在低维和高维数据的实证结果表明可以有效地进行数据分布的推断，而且该模型易于训练，并且不需要进行困难的超参数调整，用例包括测试和验证结果。

Jun, 2022

分布式深度森林及其在自动检测提现欺诈中的应用

本研究基于原始 deep forest 模型，引入 MART 基础学习者，成本方法，MART 特征选择和不同评价指标等模型改进，开发出可用于极大规模任务的分布式 deep forest 模型，检测到超过 1 亿个训练样本的现金提款欺诈，实验结果表明该模型具有最佳性能，可以阻止每天大量的欺诈交易和显著降低经济损失。

May, 2018