大数据可伸缩准确的在线特征选择

KDDNov, 2015

大数据可伸缩准确的在线特征选择

Scalable and Accurate Online Feature Selection for Big Data

Kui Yu, Xindong Wu, Wei Ding, Jian Pei

TL;DR本文介绍了一个在线高度可扩展的特征选择算法 - SAOLA，它使用新颖的成对比较技术，在线维护一个简便的模型。并提出了一个扩展的 SAOLA 算法，即在线群组特征选择算法，能够同时稀疏地维护一组特征组合和单个特征。实验证明，SAOLA 和群组 SAOLA 算法在高度维度的数据集上均具有良好的性能。

Abstract

feature selection is important in many big data applications. Two critical challenges closely associate with big data. Firstly, in many

feature selection big data online saola algorithm group feature selection

发现论文，激发创造

在线稀疏流特征选择使用调整分类

本研究提出了基于自适应分类的在线稀疏特征流式选择方法 (OS2FS-AC)，通过潜在因子分析 (LFA) 预估缺失数据，将特征划分为强相关、弱相关和不相关三类，并将其中的弱相关特征进一步进行信息分割，实验证明该方法在真实数据集上的表现优于现有算法。

Feb, 2023

基于稀疏性的特征选择用于异常子组发现

本研究提出了基于稀疏自动特征选择 (SAFS) 框架的异常模式检测方法，该方法能够通过特征驱动的几率比的稀疏性编码系统性的预测结果偏差，具有可用性强和可在不同异常检测技术中使用的优点。而基于此技术检测的结果也已经在公共卫生数据集中得到验证，并证实相比于多个基线方法具备了更好的特征选择和检测性能。

Jan, 2022

无模型特征选择以促进表格数据中发现不同子组

该论文提出了一个面向数据的 AI 框架，可以自动选择重要特征，实现自动发现不同的数据子组并提高检测性能。通过在 MIMIC-III 和 Allstate Claims 公开数据集上的验证，该框架比现有的六种特征选择方法减少了 81 倍和 104 倍的特征选择时间，并实现了有竞争力的检测性能。

Mar, 2022

面向大数据的超高维特征选择

本文提出了一种新的自适应特征缩放方案用于大数据上的超高维特征选择，解决了激活大量特征时优化速度缓慢的问题，采用特征生成方法迭代激活一组特征并通过多重核学习子问题得到最优解，通过加速近端梯度算法在原始形式中求解多重核学习子问题并采用缓存技巧加速训练，通过大量论文实验验证了方法的竞争性能。

Sep, 2012

无限潜变量特征选择：基于概率潜图的排名方法

本文提出了一种基于概率潜变量图的鲁棒性特征选择算法，它通过将特征子集视为图上的路径，在考虑所有特征子集的同时执行排名步骤，并将相关性建模为 PLSA 启发式生成过程中的潜在变量。实验表明，该方法在许多不同的场景和难度下都可获得最高性能水平，并在特征选择领域设定了一个新的最佳状态。

Jul, 2017

测试阶段顺序特征选择的快速分类

本文提出了一种新的主动特征获取方法，使用 Lazy Model 和 Fisher scores 确定特征子集以在测试期间最大程度地提高预测性能同时最小化成本（即特征获取成本达到可接受的精度或预算限制），并在合成和实际数据集上进行了实验来证明其准确性和速度优势。

Jun, 2023

一种用于机器学习中的高维数据集的基于对比的特征选择算法

通过选择最具信息量的特征并消除无关的特征，我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS，该方法能够在大型数据集上有效地降低计算成本，而且性能优于其他最先进的特征选择方法。

Jan, 2024

工业大数据应用中的分布式和并行时间序列特征提取

提出了一种高效的、可扩展的、基于特征提取和重要性过滤的算法，用于过滤机器学习流水线中具有显著影响的特征，特别适用于预测性维护或生产线优化等任务中的时间序列分类和回归问题，并在模拟随机过程和 UCR 时间序列分类库的二元分类问题中进行了基准测试。

Oct, 2016

通过挖掘多个任务之间的相关性进行半监督特征分析

该论文提出了一种新颖的半监督特征选择框架，通过挖掘多个任务之间的相关性，并将其应用于不同的多媒体应用程序，从而提高特征选择的性能。

Nov, 2014

SFE：一种简单、快速、有效的高维数据特征选择算法

本文提出了一种名为 SFE 的新的高维数据集特征选择算法，包括探索和开发两个阶段，在其中使用两个操作符进行搜索，有选择性和无选择性，成功地从高维数据集中选择特征。

Mar, 2023