XGBoost:一个可扩展的树提升系统
提出了基于块的分布式梯度提升树算法(GBT),以解决传统分布式 GBT 算法中针对数据点而非特征的可扩展性问题。该算法针对数据稀疏性和数据特征进行了定制,通过适应 Quickscorer 算法在块分布式设置中的使用,可在稀疏数据中实现通信成本的多个数量级降低,同时不损失准确性。
Apr, 2019
描述了两种扩展标准树提升算法以提高小型模型精度的方法:一是将提升形式从标量树扩展到矢量树以支持多类分类器,二是采用逐层提升方法在函数空间中进行更小的步长,从而达到更快的收敛和更紧凑的集合,并在各种多类数据集上证明了其功效。
Oct, 2017
本研究通过对 Extreme Gradient Boosting (XGBoost) 的改进,使用修正后的分位数回归作为目标函数以估计不确定性 (QXGBoost),并将其应用于预测间隔的创建,并将其应用于一个模拟数据集和一个实际环境数据集中的测量交通噪声,结果表明该方法在预测间隔方面的整体性能要优于其他基于覆盖范围准则的模型。
Apr, 2023
TF Boosted Trees 是一种基于 TensorFlow 的新型开源框架,用于分布式训练梯度提升树,其特点包括新颖的架构、自动损失分化、逐层提升、多类别处理和各种规范化技术等。
Oct, 2017
本文研究了三个软件 Gradient Boosting Decision Trees (GBDTs) packages: XGBoost, LightGBM 和 Catboost 的 GPU 加速性能以及在超参数优化方面的比较,并注意到 GBDTs 的许多超参数需手动调整或自动优化,以达到最佳预测能力。
Sep, 2018
提出了一种名为 C-XGBoost 的新因果推断模型,用于预测潜在结果,并使用树模型处理表格数据以及神经网络模型学习表征,同时具备 XGBoost 模型的优势,如处理缺失值和避免过拟合 / 偏差的能力。实验结果证明了该方法的有效性。
Mar, 2024
本文提出了一种基于梯度提升和自动超参数调整的自动机器学习框架 (autoxgboost),与目前的 AutoML 项目进行了比较,并在 16 个数据集上取得了可比较的结果和两个最佳表现。
Jul, 2018
通过创新 GBDT 算法的两种方法,即序贯学习和克服反事实性,用于 uplift modeling,该研究提出了一种能够优化资源分配、最大化整体回报的客户激励估计模型,并且在大规模数据集上的实验证明了该方法的有效性。为了方便应用,还开发了针对 uplift modeling 的具体设计的树提升系统 UTBoost。
Dec, 2023