大数据可伸缩准确的在线特征选择
本研究提出了基于自适应分类的在线稀疏特征流式选择方法 (OS2FS-AC),通过潜在因子分析 (LFA) 预估缺失数据,将特征划分为强相关、弱相关和不相关三类,并将其中的弱相关特征进一步进行信息分割,实验证明该方法在真实数据集上的表现优于现有算法。
Feb, 2023
本研究提出了基于稀疏自动特征选择 (SAFS) 框架的异常模式检测方法,该方法能够通过特征驱动的几率比的稀疏性编码系统性的预测结果偏差,具有可用性强和可在不同异常检测技术中使用的优点。而基于此技术检测的结果也已经在公共卫生数据集中得到验证,并证实相比于多个基线方法具备了更好的特征选择和检测性能。
Jan, 2022
该论文提出了一个面向数据的 AI 框架,可以自动选择重要特征,实现自动发现不同的数据子组并提高检测性能。通过在 MIMIC-III 和 Allstate Claims 公开数据集上的验证,该框架比现有的六种特征选择方法减少了 81 倍和 104 倍的特征选择时间,并实现了有竞争力的检测性能。
Mar, 2022
本文提出了一种新的自适应特征缩放方案用于大数据上的超高维特征选择,解决了激活大量特征时优化速度缓慢的问题,采用特征生成方法迭代激活一组特征并通过多重核学习子问题得到最优解,通过加速近端梯度算法在原始形式中求解多重核学习子问题并采用缓存技巧加速训练,通过大量论文实验验证了方法的竞争性能。
Sep, 2012
本文提出了一种基于概率潜变量图的鲁棒性特征选择算法,它通过将特征子集视为图上的路径,在考虑所有特征子集的同时执行排名步骤,并将相关性建模为 PLSA 启发式生成过程中的潜在变量。实验表明,该方法在许多不同的场景和难度下都可获得最高性能水平,并在特征选择领域设定了一个新的最佳状态。
Jul, 2017
本文提出了一种新的主动特征获取方法,使用 Lazy Model 和 Fisher scores 确定特征子集以在测试期间最大程度地提高预测性能同时最小化成本(即特征获取成本达到可接受的精度或预算限制),并在合成和实际数据集上进行了实验来证明其准确性和速度优势。
Jun, 2023
通过选择最具信息量的特征并消除无关的特征,我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS,该方法能够在大型数据集上有效地降低计算成本,而且性能优于其他最先进的特征选择方法。
Jan, 2024
提出了一种高效的、可扩展的、基于特征提取和重要性过滤的算法,用于过滤机器学习流水线中具有显著影响的特征,特别适用于预测性维护或生产线优化等任务中的时间序列分类和回归问题,并在模拟随机过程和 UCR 时间序列分类库的二元分类问题中进行了基准测试。
Oct, 2016
本文提出了一种名为 SFE 的新的高维数据集特征选择算法,包括探索和开发两个阶段,在其中使用两个操作符进行搜索,有选择性和无选择性,成功地从高维数据集中选择特征。
Mar, 2023