Oct, 2023

基于 MMD 的分布式随机森林变量重要性

TL;DR分布随机森林是一种灵活的基于森林的方法,用于估计给定输入变量的一个多变量输出的全条件分布。本文介绍了一种用于分布随机森林的变量重要性算法,基于已建立的删除与重学习原则和最大均值差异距离。我们展示了该引入的重要性指标是一致的,在真实数据和模拟数据上表现出高的经验性能,并胜过竞争对手。特别地,我们的算法通过递归特征消除高效地选择变量,从而能够提供用于建立条件输出分布的准确估计的小的变量集。