梯度提升特征选择
本文提出了一种可伸缩的基于前向特征选择的梯度提升决策树方法,通过一种新颖的群体测试过程,在高维度下工作良好,并具有较好的理论性能和计算保证,可用于搜索和推荐中的排名和相关模型的构建。同时,该方法扩展到多任务设置,允许从多个任务中选择通用特征和选择任务特定特征,与现有的梯度提升决策树方法相比,在模型性能度量方面表现相当,但训练时间有显著提升。
Sep, 2021
通过选择最具信息量的特征并消除无关的特征,我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS,该方法能够在大型数据集上有效地降低计算成本,而且性能优于其他最先进的特征选择方法。
Jan, 2024
提出了基于块的分布式梯度提升树算法(GBT),以解决传统分布式 GBT 算法中针对数据点而非特征的可扩展性问题。该算法针对数据稀疏性和数据特征进行了定制,通过适应 Quickscorer 算法在块分布式设置中的使用,可在稀疏数据中实现通信成本的多个数量级降低,同时不损失准确性。
Apr, 2019
本文提出了一种名为 SFE 的新的高维数据集特征选择算法,包括探索和开发两个阶段,在其中使用两个操作符进行搜索,有选择性和无选择性,成功地从高维数据集中选择特征。
Mar, 2023
研究提出了一种名为 Federated Gradient Boosting Forest (FedGBF) 的模型,它能够同时并行地建立决策树作为提升的基础学习器,提高性能并减少时间成本,同时还提出了一种动态更新参数的方法减少复杂度,并在基准数据集上进行了实验,证明了该方法的优越性。
Apr, 2022
本研究介绍了一种名为贪婪特征选择的用于分类任务的特征排序新方法,并通过理论和数值测试探究了该方法在模型容量指标以及预测活动太阳的地球有效表现问题上的好处。
Mar, 2024
该论文介绍了一种用于多类别分类的自动特征选择的新型基于图的滤波方法(缩写为 GB-AFS),它确定了在维持预测性能的同时保持不同类别之间互补判别能力的最小特征组合。该方法不需要任何用户定义的参数,如要选择的特征数量。该方法使用 Jeffries-Matusita (JM) 距离结合 t 分布随机邻域嵌入(t-SNE)生成反映每个特征能够在每对类别之间区分性的低维空间。采用我们新开发的用于特征选择任务的平均简化 Silhouette (MSS) 指数选择最小特征数量,该指数旨在评估特征选择任务的聚类结果。在公开数据集上的实验结果表明,所提出的 GB-AFS 方法优于其他基于滤波的技术和自动特征选择方法的性能。此外,所提出的算法在仅使用特征的 7% 到 30% 的情况下保持了达到的准确性,从而将分类所需的时间减少了 15% 到 70%。
Sep, 2023