标准相关森林

Jul, 2015

Canonical Correlation Forests

HTML

PDF

Tom Rainforth, Frank Wood

TL;DR介绍了一种新的分类和回归决策树集成方法 - 规范相关森林，它能够处理存在相关性的多个特征，具有优异的性能以及更快的训练速度。

Abstract

We introduce canonical correlation forests (CCFs), a new decision tree ensemble method for →

发现论文，激发创造

用inTrees解释树集合

本文提供inTrees框架，通过提取、衡量、修剪和选择树集合中的规则，并计算频繁的变量交互来提高树集合的可解释性。inTrees框架可以应用于分类和回归问题，并适用于多种树集合类型，例如随机森林、正则化随机森林和Boosted Trees。

Aug, 2014

CO2 Forest: 通过斜切的连续优化实现改进的随机森林

本研究提出了一种优化多元线性阈值函数作为决策树分裂函数以创建改进的 Random Forest 分类器的新算法，相较于标准的树归纳方法，该方法采用随机梯度下降优化每个节点的线性组合（斜）分裂函数，比之前的构建斜树的技术和单变量分裂函数的随机抽样和穷举搜索方法具有更好的性能，已在多类分类基准测试和 Labeled Faces in the Wild （LFW）数据集上进行了实验验证。

Jun, 2015

树形空间原型：再探树集成的可解释性

提出了通过表现每个类别的代表点-原型来解释树模型集合分类器的方法，并通过应用新的距离和自适应原型选择方法，在随机森林和梯度提升树上演示了原型的可行性，其在人类用户的研究中表现良好，并为决策树模型的解释提供了可行的替代方案。

Nov, 2016

规范相关分析方法教程

本文介绍了经典相关分析如何通过正则化、核、和稀疏等不同变体实现对变量集对之间的关系的研究。同时作者提供了数值例子，希望这篇文章成为数据分析人员使用经典相关方法的实用工具。

Nov, 2017

树集成分类器的概念视角

本文提出了一种基于格论的代数方法来解释树集成分类器中随机森林的分类性能，并展示了该方法在提供全局解释方面的能力。

Feb, 2023

计算最优树集合

提出了两种新算法以及相应的下限，适用于树集合，展示了决策树和树集合分类训练数据集所需的切割数相比，随着树的数量增加，集合所需的切割数可能会指数级下降。

Jun, 2023

CCA Family的高效算法：无约束目标与无偏梯度

基于对CCA目标的随机梯度下降方法，提出了一种快速的多视图学习算法，能够在大规模数据中同时达到较快的收敛速度和更高的相关性，并能够在生物医学数据集和自我监督学习任务中取得卓越的表现。

Oct, 2023

单变量和多变量决策树的相关性和非预期偏差

决策树是可访问、可解释且性能良好的分类模型。在过去的四十年里，已提出了众多表达能力不断增强的变体。我们对两类一元决策树和多元决策树进行对比，一元决策树通过轴平行超平面对数据进行分区，而多元决策树通过斜超平面对数据进行分区。后者包括前者，因此多元决策树原则上更强大。然而，出乎意料的是，一元决策树在文献中始终展现出相当的性能。我们通过合成和真实世界的基准数据集分析了其原因。我们的研究问题试图测试在数据集中去除特征间相关性的预处理阶段是否对一元决策树和多元决策树的相对性能产生影响。我们发现现有的基准数据集很可能存在偏向一元决策树的问题。

Dec, 2023

不变随机森林：基于树的模型解决OOD泛化问题

这篇论文介绍了一种针对决策树模型的OutOf-Distribution（OOD）泛化的新颖有效解决方案，名为不变决策树（IDT）。IDT通过在树的生长过程中对于不同环境下分割的不稳定/变化行为施加惩罚项来实现OOD泛化。通过理论结果和合成以及真实数据集的数值测试，证实了所提出的方法的优越性能，表明决策树模型的OOD泛化是绝对必要且应该更加关注。

Dec, 2023

深度广义典型相关分析再探

探索多个观测随机向量之间的潜在共变性的经典统计方法——典型相关分析(CCA)以及其扩展和变化在发现多视图数据集中的共同随机因素方面的能力。该研究设计了一种新颖高效的模型，适用于典型相关分析的深度扩展，并克服了现有方法的局限性，将私有组件建模为在给定共同组件的条件下条件独立，从而提供了一种更紧凑的表述形式。通过合成数据和实际数据的实验验证了我们的结论和方法的有效性。

Dec, 2023