灌木丛集用于在线分类
本研究旨在解决决策树集成在多领域应用时造成的可解释性下降,提出了 Born-Again 树集成的方法,通过动态规划算法生成出在实际数据集上表现优异的 Born-Again 树模型,以在不牺牲分类器性能的前提下获得更高的可解释性。
Mar, 2020
该研究使用基于树的集成方法,如随机森林、梯度提升树和贝叶斯增加回归树,在许多应用和研究中成功地用于回归问题。本文研究了概率回归树的集成版本,通过将每个观测分配到相对应的概率分布区域,为目标函数提供平滑逼近。我们证明了所考虑的概率回归树的集成版本是一致的,并在实验中研究了它们的偏差 - 方差折衷,并与最先进的性能预测方法进行比较。
Jun, 2024
我们提出了一种灵活的决策树集成学习框架,支持任意损失函数、缺失响应和多任务学习,采用可微分的树集成训练,并通过张量形式的不同 iable trees 实现了高效的向量化,实验结果表明,我们的框架比流行工具包产生的决策树集成更紧凑,表达力更强。
May, 2022
本文提出了 GRANDE,一种基于梯度的决策树集成模型,通过端到端梯度下降学习硬性、轴对齐的决策树集成模型。GRANDE 基于树集成的稠密表示,利用直线传播运算符对所有模型参数进行联合优化。通过结合轴对齐分割和基于梯度的优化,我们的方法既具备了适合表格数据的归纳偏好,又具备了优化的灵活性。此外,我们还引入了一种高级的逐实例加权方法,有助于在单个模型中学习简单和复杂的关系。我们在一个预定义的基准测试集上进行了广泛的评估,并且证明我们的方法在大多数数据集上胜过现有的梯度提升和深度学习框架。
Sep, 2023
本研究使用神经网络和决策树作为分类算法,在 23 个数据集上评估了 Bagging 和 Boosting 两种集成方法。研究结果表明 Bagging 方法几乎总是比单个分类器更准确,而 Boosting 方法则在某些情况下比 Bagging 更不准确。数据集的特征对 Boosting 方法的表现有重要影响,这种方法可能会过拟合噪声数据集,从而减少性能。同时我们的结果也说明,集成模型的性能提升大部分发生在前几个分类器的组合中。
Jun, 2011
决策树组合算法(如 RandomForest 和 GradientBoosting)在对于离散或表格数据进行建模方面是主导方法,但是由于它们无法像神经网络那样从原始数据中进行层次化表示学习,因此限制了其在深度学习问题和建模非结构化数据方面的应用。然而,本研究表明通过将 bagging 和 boosting 的数学形式结合起来,可以定义一个具有分布式表示学习过程的图结构树集成算法,并且不需要使用反向传播算法,我们称之为分布式梯度提升森林(DGBF)。最后,我们发现分布式学习在 9 个数据集中的 7 个中表现优于 RandomForest 和 GradientBoosting。
Feb, 2024
决策树在可解释的机器学习中是重要的预测模型,本文介绍了一种新的蒙特卡洛树搜索算法 (TSDT),在在线环境中通过汤普森抽样来产生最优的决策树,并经过实验证明该算法在几个基准测试中表现优于现有算法,并具有适用于在线环境的实际优势。
Apr, 2024
使用稀疏感应的 soft decision trees 取代传统的决策树集成方法,可以克服它们的光滑性差和受维度灾难的困扰。在 Bayesian additive regression trees 框架下实现该方法,理论上得到强大的支持,并在基准数据集上表现出良好的性能。
Jul, 2017