本文提出了一种使用单深度决策树实现线性回归特征选择问题的理论保证,扩展至非线性和任意亚高斯分布,证明了决策树具有良好的特征选择性能和在实践中成功的原因。
Mar, 2023
本文讨论了在高维模型中进行变量选择时可以给出什么样的统计保证,并以某些多阶段回归方法的误差率和功率为例。我们考虑了三种筛选方法:套索、边际回归和前向逐步回归,提出了在某些条件下一致的变量选择方法。
Apr, 2007
本研究提出了基于确定性平滑的决策桩集成方法,通过动态规划和两种提高保真度的方法,成功地获得了数值和分类特征的确定性鲁棒证明。实验证明,相较于基于树模型的现有技术,我们的方法可以显著提高基于树模型的保真度。
May, 2022
本文研究了 CART 方法构建的回归树的统计特性,发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制,并通过构建先验分布和解决非线性优化问题来限制其范围,利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时,使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡,同时,数据相关量可以适应回归模型的维度和潜在结构,控制预测误差的收敛速度。
Jun, 2020
研究计算机代码自动调优,提出基于动态树模型的变量选择和敏感度分析新技术,并在优化代码调整、检测缓存效应和错误转换等方面应用。
Aug, 2011
本文介绍一种新的决策树分类算法,该算法采用连续优化,每个决策节点采取随机决策,实现了较好的性能效果。
Oct, 2021
提出了四种改善模型精度的技术,在真实和模拟数据集上与树集成等其他算法进行对比,以提高分类树中选择关键预测变量和识别有趣的子组的能力。
Nov, 2010
本研究探讨了常见的决策树信息增益估算方法的偏差问题,并通过改进离散熵和微分熵的估算方法,提高了分类和回归预测性能。
Jun, 2012
通过提出一种决策树优化框架,解决了当前领域中两个开放性问题:不平衡数据处理和连续变量完全优化。此外,我们还介绍了一种可扩展的算法,可以在存在连续变量的情况下产生可证明的最优结果,并相对于现有技术将决策树构建速度提高了数个数量级。
本文介绍了一种新的技术 —— 树结构提升,可以用单一决策树产生等效于分类和回归树或梯度增强桩的模型,并且可以在两种方法之间生成混合模型。此技术不仅为高风险应用(如医学)提供了模型可解释性和预测性能,而且可以优于这两种方法。
Nov, 2017