带有噪声结果的最优决策树
本文通过理论分析和大量模拟实验表明:在大样本情况下,许多流行的决策树算法对于对称标签噪声具有鲁棒性,并提供了一些样本复杂度结果来说明其鲁棒性的可靠性。
May, 2016
本文提出了一种新的基于支持向量机和 1 - 范数分多元决策树(ODT)训练的混合整数规划(MIP)公式,利用线性规划(LP)数据选择方法选择数据样本,实现了对大数据集的有效训练,并在包含 245,000 个样本的数据集上验证了该方法优于现有的启发式方法和其他基于 MIP 的技术的效果。
Nov, 2020
使用含噪标记数据训练决策树,研究能够导致健壮学习算法的损失函数。首先,我们在决策树学习领域提供了有关许多现有损失函数健壮性的新理论见解。其次,我们介绍了一种构建健壮损失函数的框架,称为分布损失。最后,我们的多个数据集和噪声设置上的实验证实了我们的理论洞察力和自适应负指数损失的有效性。
Dec, 2023
本篇论文利用决策树表示数据观测过程并使用基于贝叶斯决策理论的先验概率分布,将实现统计上最优的预测结果。同时,我们解决了计算 Bayes 最优预测的问题,例如内部节点的特征分配问题,实现方法为应用马尔可夫链 - 蒙特卡洛方法,其步长可以根据先验分布自适应调整。
Jun, 2023
决策树在可解释的机器学习中是重要的预测模型,本文介绍了一种新的蒙特卡洛树搜索算法 (TSDT),在在线环境中通过汤普森抽样来产生最优的决策树,并经过实验证明该算法在几个基准测试中表现优于现有算法,并具有适用于在线环境的实际优势。
Apr, 2024
本研究提出了一种基于动态规划和搜索的学习算法来实现最优决策树,这种算法支持对树的深度和节点数量设置限制,并在实验证明使用我们的算法只需要很短的时间就可以处理具有成千上万个实例的数据集,从而极大地提高了最优决策树的实用性。
Jul, 2020
这篇论文提出了 ECED 算法,实现了贝叶斯主动学习和实验设计问题,并针对有条件相关性的测试结果进行了探索,通过优化代理目标函数中的测试输入来实现在相关噪声测试中的最优界限。
May, 2016
该论文提出了一种基于 TOD 测量方法的深度主动学习方法,通过查询 oracle 注释含有高损失的未标记样本以降低数据注释成本,并在图像分类和语义分割任务上展示出卓越的性能。
Dec, 2022
这篇论文介绍了一种针对决策树模型的 OutOf-Distribution(OOD)泛化的新颖有效解决方案,名为不变决策树(IDT)。IDT 通过在树的生长过程中对于不同环境下分割的不稳定 / 变化行为施加惩罚项来实现 OOD 泛化。通过理论结果和合成以及真实数据集的数值测试,证实了所提出的方法的优越性能,表明决策树模型的 OOD 泛化是绝对必要且应该更加关注。
Dec, 2023
该研究探讨了在 “先预测,再优化” 框架下使用决策树进行决策问题的决策,并提出了一种可观的方法称为 SPO Trees (SPOTs) 用于训练决策树,该方法具有较高的解释性。实验结果表明,SPOTs 可提供更高质量的决策,并显著降低了模型复杂性。
Feb, 2020