最优决策桩的非参数变量筛选

Nov, 2020

Nonparametric Variable Screening with Optimal Decision Stumps

Jason M. Klusowski, Peter M. Tian

TL;DR通过使用决策树，我们推导出了非参数模型中变量选择的有限样本性能保证，并发现决策树可以用于实现一致的模型选择，即使用于估计目的时高度不准确。

Abstract

decision trees and their ensembles are endowed with a rich set of diagnostic tools for ranking and screening variables in a predictive model. Despite the widespread use of tree based variable importance measures,

decision trees variable importance measures nonparametric models variable selection model selection

发现论文，激发创造

决策树在最优稀疏恢复中的应用

本文提出了一种使用单深度决策树实现线性回归特征选择问题的理论保证，扩展至非线性和任意亚高斯分布，证明了决策树具有良好的特征选择性能和在实践中成功的原因。

Mar, 2023

高维变量选择

本文讨论了在高维模型中进行变量选择时可以给出什么样的统计保证，并以某些多阶段回归方法的误差率和功率为例。我们考虑了三种筛选方法：套索、边际回归和前向逐步回归，提出了在某些条件下一致的变量选择方法。

Apr, 2007

决策桩集合的 (去) 随机平滑化

本研究提出了基于确定性平滑的决策桩集成方法，通过动态规划和两种提高保真度的方法，成功地获得了数值和分类特征的确定性鲁棒证明。实验证明，相较于基于树模型的现有技术，我们的方法可以显著提高基于树模型的保真度。

May, 2022

CART 稀疏学习

本文研究了 CART 方法构建的回归树的统计特性，发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制，并通过构建先验分布和解决非线性优化问题来限制其范围，利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时，使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡，同时，数据相关量可以适应回归模型的维度和潜在结构，控制预测误差的收敛速度。

Jun, 2020

使用动态树进行变量选择和敏感性分析，并应用于计算机代码性能调优

研究计算机代码自动调优，提出基于动态树模型的变量选择和敏感度分析新技术，并在优化代码调整、检测缓存效应和错误转换等方面应用。

Aug, 2011

最优随机分类树

本文介绍一种新的决策树分类算法，该算法采用连续优化，每个决策节点采取随机决策，实现了较好的性能效果。

Oct, 2021

提高分类树的精度

提出了四种改善模型精度的技术，在真实和模拟数据集上与树集成等其他算法进行对比，以提高分类树中选择关键预测变量和识别有趣的子组的能力。

Nov, 2010

决策树归纳的信息增益估计改进

本研究探讨了常见的决策树信息增益估算方法的偏差问题，并通过改进离散熵和微分熵的估算方法，提高了分类和回归预测性能。

Jun, 2012

通用和可扩展的最优稀疏决策树

通过提出一种决策树优化框架，解决了当前领域中两个开放性问题：不平衡数据处理和连续变量完全优化。此外，我们还介绍了一种可扩展的算法，可以在存在连续变量的情况下产生可证明的最优结果，并相对于现有技术将决策树构建速度提高了数个数量级。

Jun, 2020

树形提升：梯度提升树桩和完整决策树之间的联系

本文介绍了一种新的技术 —— 树结构提升，可以用单一决策树产生等效于分类和回归树或梯度增强桩的模型，并且可以在两种方法之间生成混合模型。此技术不仅为高风险应用（如医学）提供了模型可解释性和预测性能，而且可以优于这两种方法。

Nov, 2017