梯度提升特征选择

Jan, 2019

Gradient Boosted Feature Selection

Zhixiang Eddie Xu, Gao Huang, Kilian Q. Weinberger, Alice X. Zheng

TL;DR本研究提出了一种名为梯度提升特征选择 (GBFS) 的新型特征选择算法，该算法可可靠地提取相关特征，能够识别非线性特征相互作用，与特征和维度的数量线性缩放，并允许纳入已知的稀疏结构，并在多个真实世界的数据集上进行了评估，表现出强大的性能，比其他现有的特征选择算法具有更好的扩展性和适应性。

Abstract

A feature selection algorithm should ideally satisfy four conditions: reliably extract relevant features; be able to identify non-linear feature interactions; scale linearly with the number of features and dimensions; allow the incorporation of known →

feature selection algorithm non-linear feature interactions gradient boosted feature selection sparsity structure real world data sets

发现论文，激发创造

（多任务）梯度提升树的可扩展特征选择

本文提出了一种可伸缩的基于前向特征选择的梯度提升决策树方法，通过一种新颖的群体测试过程，在高维度下工作良好，并具有较好的理论性能和计算保证，可用于搜索和推荐中的排名和相关模型的构建。同时，该方法扩展到多任务设置，允许从多个任务中选择通用特征和选择任务特定特征，与现有的梯度提升决策树方法相比，在模型性能度量方面表现相当，但训练时间有显著提升。

Sep, 2021

一种用于机器学习中的高维数据集的基于对比的特征选择算法

通过选择最具信息量的特征并消除无关的特征，我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS，该方法能够在大型数据集上有效地降低计算成本，而且性能优于其他最先进的特征选择方法。

Jan, 2024

区块分布式梯度提升树

提出了基于块的分布式梯度提升树算法（GBT），以解决传统分布式 GBT 算法中针对数据点而非特征的可扩展性问题。该算法针对数据稀疏性和数据特征进行了定制，通过适应 Quickscorer 算法在块分布式设置中的使用，可在稀疏数据中实现通信成本的多个数量级降低，同时不损失准确性。

Apr, 2019

SFE：一种简单、快速、有效的高维数据特征选择算法

本文提出了一种名为 SFE 的新的高维数据集特征选择算法，包括探索和开发两个阶段，在其中使用两个操作符进行搜索，有选择性和无选择性，成功地从高维数据集中选择特征。

Mar, 2023

FedGBF: 一种基于梯度提升和 Bagging 的有效垂直联邦学习框架

研究提出了一种名为 Federated Gradient Boosting Forest (FedGBF) 的模型，它能够同时并行地建立决策树作为提升的基础学习器，提高性能并减少时间成本，同时还提出了一种动态更新参数的方法减少复杂度，并在基准数据集上进行了实验，证明了该方法的优越性。

Apr, 2022

加速梯度提升

本文介绍了一种基于渐进提升方法和 Nesterov 加速下降的新算法 AGB，不但表现突出，在不同预测问题中还表现出更好的稀疏性和少对收缩参数的敏感性。

Mar, 2018

贪婪特征选择：通过贪婪方法进行分类器依赖特征选择

本研究介绍了一种名为贪婪特征选择的用于分类任务的特征排序新方法，并通过理论和数值测试探究了该方法在模型容量指标以及预测活动太阳的地球有效表现问题上的好处。

Mar, 2024

基于最先进的梯度提升算法的分类性能基准测试

比较了四种梯度提升方法在一些真实数据集上的表现，着重考虑超参数优化策略，并尝试找到一种具有效果、可靠性和易用性的梯度提升算法。

May, 2023

个体公平梯度提升

该研究采用函数梯度下降法实现在梯度提升中的个体公平性问题，并证明了该算法在决策树等非平滑模型上的泛化性和有效性。

Mar, 2021

基于图的多类分类自动特征选择通过均值简化轮廓

该论文介绍了一种用于多类别分类的自动特征选择的新型基于图的滤波方法（缩写为 GB-AFS），它确定了在维持预测性能的同时保持不同类别之间互补判别能力的最小特征组合。该方法不需要任何用户定义的参数，如要选择的特征数量。该方法使用 Jeffries-Matusita (JM) 距离结合 t 分布随机邻域嵌入（t-SNE）生成反映每个特征能够在每对类别之间区分性的低维空间。采用我们新开发的用于特征选择任务的平均简化 Silhouette (MSS) 指数选择最小特征数量，该指数旨在评估特征选择任务的聚类结果。在公开数据集上的实验结果表明，所提出的 GB-AFS 方法优于其他基于滤波的技术和自动特征选择方法的性能。此外，所提出的算法在仅使用特征的 7% 到 30% 的情况下保持了达到的准确性，从而将分类所需的时间减少了 15% 到 70%。

Sep, 2023