本研究探讨了常见的决策树信息增益估算方法的偏差问题,并通过改进离散熵和微分熵的估算方法,提高了分类和回归预测性能。
Jun, 2012
本文研究了 CART 方法构建的回归树的统计特性,发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制,并通过构建先验分布和解决非线性优化问题来限制其范围,利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时,使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡,同时,数据相关量可以适应回归模型的维度和潜在结构,控制预测误差的收敛速度。
Jun, 2020
提出了两种新算法以及相应的下限,适用于树集合,展示了决策树和树集合分类训练数据集所需的切割数相比,随着树的数量增加,集合所需的切割数可能会指数级下降。
Jun, 2023
通过奖励不均匀概率分布来减少决策树路径长度,优化决策树的内存架构感知实现以降低执行时间。
Jun, 2024
本文提出一种基于威胁模型的决策树学习算法 Treant,通过采用坚固分裂和攻击鲁棒性等两种技术手段,使得学习过程更为完整、高效,有效提高抗攻击性能。
Jul, 2019
本文提出了一种构建基于决策树的离散流来降低计算负担和消除伪梯度需求的方法,包括定义一种树结构的置换来高效地计算密度值和样本新数据,以及使用新的标准在每个节点上学习树结构和置换,并在多个数据集上通过实验证明了我们方法的可行性。
Jul, 2022
本文提出了利用一种新标准进行训练贝叶斯决策树的方法,得到的树的分类准确度可与贪婪构造的决策树相媲美或更好,同时树的大小显著减小,并可以在数据集大小的多项式时间内进行后验学习和采样。
Feb, 2023
决策树是可访问、可解释且性能良好的分类模型。在过去的四十年里,已提出了众多表达能力不断增强的变体。我们对两类一元决策树和多元决策树进行对比,一元决策树通过轴平行超平面对数据进行分区,而多元决策树通过斜超平面对数据进行分区。后者包括前者,因此多元决策树原则上更强大。然而,出乎意料的是,一元决策树在文献中始终展现出相当的性能。我们通过合成和真实世界的基准数据集分析了其原因。我们的研究问题试图测试在数据集中去除特征间相关性的预处理阶段是否对一元决策树和多元决策树的相对性能产生影响。我们发现现有的基准数据集很可能存在偏向一元决策树的问题。
Dec, 2023
研究论文通过理论和实验,探讨了 ε- 代表性方法在决策树中评估数据集相似性的可靠性,发现 ε- 代表性与特征重要性排序具有显著相关性,并将结果扩展到 XGboost 在未见车辆碰撞数据中的应用。
Apr, 2024
本研究探讨了多个概率预测方法,包括基于信任函数和可靠分类的方法以及我们称之为证据累加的原则。实验结果表明证据累加的效果优于投票和取平均值的方法,特别是在中等规模的叶子节点上。
Aug, 2022