通过使用决策树,我们推导出了非参数模型中变量选择的有限样本性能保证,并发现决策树可以用于实现一致的模型选择,即使用于估计目的时高度不准确。
Nov, 2020
通过提出一种决策树优化框架,解决了当前领域中两个开放性问题:不平衡数据处理和连续变量完全优化。此外,我们还介绍了一种可扩展的算法,可以在存在连续变量的情况下产生可证明的最优结果,并相对于现有技术将决策树构建速度提高了数个数量级。
Jun, 2020
通过使用智能猜测策略,我们可以在几个数量级的时间里降低运行时间,提供对最佳决策树误差和表达能力偏差的界限,并在许多情况下快速构建与黑盒模型的匹配精度的稀疏决策树。
Dec, 2021
本文提出了一种连续优化方法来构建精简的最佳分类树,基于斜裁剪,并旨在在整个树中使用较少的预测变量进行剪枝。该方法模拟了本地和全局稀疏性,证明了其对提高分类精度具有实用性。
Feb, 2020
本文提出了一种动态编程方法来构建确切的最优稀疏回归树,并基于一维 k-Means 聚类算法提出了新的下界,我们能够在几秒钟内找到具有挑战性的数据集的最优稀疏树。
Nov, 2022
这篇论文介绍了第一种针对二进制变量进行最佳决策树生成的实用算法,该算法结合了分析界限和数据结构等现代技术,在可扩展性、速度和最优性方面具有明显优势。
Apr, 2019
本文研究了 CART 方法构建的回归树的统计特性,发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制,并通过构建先验分布和解决非线性优化问题来限制其范围,利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时,使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡,同时,数据相关量可以适应回归模型的维度和潜在结构,控制预测误差的收敛速度。
该论文提出了一种算法,该算法能够基于全局目标同时优化决策树的所有级别的分裂函数和叶参数,使用随机梯度下降进行优化,实验结果表明,该算法相比贪心算法在分类任务的表现优秀。
Nov, 2015
提出了两种新算法以及相应的下限,适用于树集合,展示了决策树和树集合分类训练数据集所需的切割数相比,随着树的数量增加,集合所需的切割数可能会指数级下降。
Jun, 2023
本研究提出了三种算法来高效地稀疏加权决策树优化,解决了算法无法处理加权数据样本的问题,这在影响个体数据点上的倒数概率加权方面有重要应用.
Oct, 2022