加速梯度提升
本文针对一种最先进的预测技术 —— 梯度提升方法,通过解决无限维凸优化问题,顺序地生成一个由简单预测器(通常为决策树)的线性组合构成的模型。我们对两个广泛使用的梯度提升版本进行了彻底的分析,并从函数优化的角度引入了一个通用框架来研究这些算法。证明了它们在迭代次数趋近于无穷时的收敛性,并强调了具有强凸风险函数的重要性。我们还提供了一个合理的统计环境,确保在样本大小增长时提高了预测器的一致性。在我们的方法中,优化程序是无限运行的(也就是说,没有采用早期停止策略),并且通过适当的 $L^2$ 损失惩罚和强凸性论证来实现统计正则化。
Jul, 2017
描述了两种扩展标准树提升算法以提高小型模型精度的方法:一是将提升形式从标量树扩展到矢量树以支持多类分类器,二是采用逐层提升方法在函数空间中进行更小的步长,从而达到更快的收敛和更紧凑的集合,并在各种多类数据集上证明了其功效。
Oct, 2017
决策树组合算法(如 RandomForest 和 GradientBoosting)在对于离散或表格数据进行建模方面是主导方法,但是由于它们无法像神经网络那样从原始数据中进行层次化表示学习,因此限制了其在深度学习问题和建模非结构化数据方面的应用。然而,本研究表明通过将 bagging 和 boosting 的数学形式结合起来,可以定义一个具有分布式表示学习过程的图结构树集成算法,并且不需要使用反向传播算法,我们称之为分布式梯度提升森林(DGBF)。最后,我们发现分布式学习在 9 个数据集中的 7 个中表现优于 RandomForest 和 GradientBoosting。
Feb, 2024
提出了基于块的分布式梯度提升树算法(GBT),以解决传统分布式 GBT 算法中针对数据点而非特征的可扩展性问题。该算法针对数据稀疏性和数据特征进行了定制,通过适应 Quickscorer 算法在块分布式设置中的使用,可在稀疏数据中实现通信成本的多个数量级降低,同时不损失准确性。
Apr, 2019
提出了一种名为 PGBM 的新方法,利用决策树的随机叶权重和随机树集更新方程逼近训练集中每个样本的均值和方差,从而实现单一模型预测概率分布,比传统方法速度快且效果更佳。
Jun, 2021
NGBoost 是一种利用梯度提升用于概率预测的算法,可以通过考虑与目标函数相关的分布的参数并将其视为多参数提升算法的目标来泛化梯度提升以进行概率回归。它可以与任何基本学习器、任何具有连续参数的分布族以及任何得分规则一起使用,具有灵活性、可扩展性和易用性等额外优点。
Oct, 2019
本文研究了三个软件 Gradient Boosting Decision Trees (GBDTs) packages: XGBoost, LightGBM 和 Catboost 的 GPU 加速性能以及在超参数优化方面的比较,并注意到 GBDTs 的许多超参数需手动调整或自动优化,以达到最佳预测能力。
Sep, 2018
本研究提出了一种基于渐进树提升(gradient tree boosting)的结构学习模型,用于在文档中共同消歧命名实体,并通过提出的双向束搜索算法 BiBSG 进行近似推断。在标准基准数据集上的实验表明,该模型显着提高了先前发表结果,特别是在 AIDA-CoNLL 数据集上表现优异。
Feb, 2018
研究提出了一种名为 Federated Gradient Boosting Forest (FedGBF) 的模型,它能够同时并行地建立决策树作为提升的基础学习器,提高性能并减少时间成本,同时还提出了一种动态更新参数的方法减少复杂度,并在基准数据集上进行了实验,证明了该方法的优越性。
Apr, 2022