关于足够纯度减小条件下 CART 的收敛性

Oct, 2023

关于足够纯度减小条件下 CART 的收敛性

On the Convergence of CART under Sufficient Impurity Decrease Condition

Rahul Mazumder, Haoyue Wang

TL;DR决策树和 CART 在回归场景下的收敛速度研究，证明基于充分不纯度减少条件的 CART 预测误差上界，并提出了易于验证的条件使得该条件得以满足。

Abstract

The decision tree is a flexible machine learning model that finds its success in numerous applications. It is usually fitted in a recursively greedy manner using cart. In this paper, we investigate the

decision tree cart regression setting impurity decrease convergence rate

发现论文，激发创造

CART 稀疏学习

本文研究了 CART 方法构建的回归树的统计特性，发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制，并通过构建先验分布和解决非线性优化问题来限制其范围，利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时，使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡，同时，数据相关量可以适应回归模型的维度和潜在结构，控制预测误差的收敛速度。

Jun, 2020

最优随机分类树

本文介绍一种新的决策树分类算法，该算法采用连续优化，每个决策节点采取随机决策，实现了较好的性能效果。

Oct, 2021

适应平滑性和稀疏性的贝叶斯回归树集成

使用稀疏感应的 soft decision trees 取代传统的决策树集成方法，可以克服它们的光滑性差和受维度灾难的困扰。在 Bayesian additive regression trees 框架下实现该方法，理论上得到强大的支持，并在基准数据集上表现出良好的性能。

Jul, 2017

聚合方法在统计学习中的高速学习率

本文提出了一种基于随机序列算法的最小化极限风险收敛速率的方法，其鲁棒性得到了保证，并对于损失函数的凸度及输出分布中的噪声级别等因素，提供了紧凑的可执行上限界。

Mar, 2007

使用自适应分割的分类算法

提出了一种使用装饰树的自适应树划分算法，可以生成更高阶方法的估计集以及在平滑度和边际条件方面具有更强的收敛性。

Nov, 2014

TREE：树正则化用于高效执行

通过奖励不均匀概率分布来减少决策树路径长度，优化决策树的内存架构感知实现以降低执行时间。

Jun, 2024

协变量转移下的分类树剪枝

本研究讨论了在不同分布的训练数据中，选择一个平衡偏差和方差的适当子树的剪枝问题，并提出了首个在这种情况下进行最优剪枝的高效程序。

May, 2023

二叉决策树和随机森林中的条件偏差及其消除

本文通过调查决策树和随机森林分类与回归中的条件操作符选择的偏差，针对具有格特征的特征的存在，提出了消除这种偏差的技术，并证明了偏差可能导致 AUC 和 r² 得分的显著差异。此外，通过提出的技术与最坏情况相比，在 AUC 和 r² 得分方面实现了统计显著的改进。

Dec, 2023

模型错误下的条件独立性检验

在现代统计学和机器学习中，条件独立性检验是基础性且具有挑战性的。许多现代的条件独立性检验方法依赖于强大的监督学习方法，在学习回归函数或贝叶斯预测器时作为一种中间步骤。然而，当监督学习方法由于模型错误估计导致失败时，这些方法的行为了解还很有限。在更广义上，即使使用通用逼近器（如深度神经网络），模型错误估计仍然可能产生。因此，我们研究了基于回归的条件独立性测试在模型错误估计下的性能。具体地，我们提出了三个基于回归的测试的测试误差的新近似值或上界，这些误差依赖于模型错误估计。此外，我们引入了一种新的基于回归的条件独立性测试方法，即 Rao-Blackwellized 预测器测试（RBPT），该方法对模型错误估计具有鲁棒性。最后，我们使用人工数据和真实数据进行实验证明了我们的理论和方法的有用性。

Jul, 2023

统计与在线学习的高速率

本文通过对学习算法的收敛速度及其条件的研究，提出了一个统一的中心条件和随机可混合条件，这些条件可用于直接证明快速学习的速率，是实现统计学习中快速率的重要步骤。

Jul, 2015