距离排名得分：针对不平衡数据集的无监督特征选择过滤方法

May, 2023

距离排名得分：针对不平衡数据集的无监督特征选择过滤方法

Distance Rank Score: Unsupervised filter method for feature selection on imbalanced dataset

Katarina Firdova, Céline Labart, Arthur Martel

TL;DR介绍了一种针对不平衡多类别数据集的新型无监督特征选择过滤方法，并与现有的适用于无监督数据的过滤方法进行了比较。该方法基于 Spearman 等级相关系数，避免了现有方法中特征方差不适用于不同类型观测的问题。该方法已在多个聚类问题中进行了性能测量。

Abstract

This paper presents a new filter method for unsupervised feature selection. This method is particularly effective on imbalanced multi-class dataset, as in case of clusters of different →

unsupervised feature selection imbalanced multi-class dataset anomaly types spearman's rank correlation clustering

发现论文，激发创造

无监督特征选择方法的性能分析

本文比较了不同算法在特征选择方面的效果，结果表明 PCA、Rough PCA、USQR 和 EDR 算法能够快速筛选出对数据分类最相关的特征。

Jun, 2013

无监督特征分析及类间间隔优化

该论文提出了一种基于无监督学习的特征选择方法，将最大间隔准则和基于稀疏性的模型整合到一个联合框架中，将类间间距和特征相关性同时考虑，通过将 Kmeans 嵌入框架中来生成伪类标签，从提取特征系数矩阵的稀疏结构来有效去除噪声和无关特征，并提出了一种收敛保证的算法以迭代地寻找最优解，对六个基准数据集进行了广泛的性能评估，实验结果表明，该方法的性能优于所有其他对比方法。

Jun, 2015

一种用于机器学习中的高维数据集的基于对比的特征选择算法

通过选择最具信息量的特征并消除无关的特征，我们提出了一种新的基于差异性特征的滤波特征选择方法 ContrastFS，该方法能够在大型数据集上有效地降低计算成本，而且性能优于其他最先进的特征选择方法。

Jan, 2024

基于集合博弈理论的无监督分类数据特征排序

本文提出了一种基于博弈理论、计算特征重要性的方法，用于无监督特征选择并消除冗余，结果表明该方法在降低冗余率的同时最大化数据信息。同时，本文还介绍了一种计算 Shapley 值的算法的近似版本，使其能够降低复杂度。

May, 2022

聚类算法的指标对无关特征的敏感性

聚类算法在数据分析中被广泛使用，本文研究了加入无关特征对聚类结果的影响，并发现 Silhouette 系数和 Davies-Bouldin 分数对无关特征最为敏感，因此可用于无监督聚类任务中的特征选择。

Feb, 2024

一种评估特征选择和排序算法稳定性的信息论方法

特征选择是处理高维数据时的关键步骤，本文提出了一种基于 Jensen Shannon 散度的信息论方法来衡量算法的稳定性，该方法能够适用于不同的算法输出结果，并具备校正变化、上下界和确定性选择条件等优良特性。通过在控制条件下生成的数据和与其他流行度量标准的比较，验证了该稳定性度量标准的实用性和优势。在实际问题中，该方法对于食物质量评估具有潜在的稳定性评估能力。

Feb, 2024

基于图滤波的拓扑特征选择方法

本文介绍了一种基于图形的无监督特征选择技术，该技术利用拓扑受限网络表示的威力，使用和弦图来建模特征之间的依赖结构，通过研究它们在网络内的相对位置来最大化特征相关性的可能性，并在不同应用领域的 16 个基准数据集上测试我们的算法，结果表明我们的算法在异构评估条件下优于或与最新技术水平相匹配。该方法在可调性，可解释性和计算成本方面展现出较高的优越性。

Feb, 2023

边缘拉普拉斯评分

高维度不平衡数据中，无监督特征选择方法对于后续算法的成功至关重要。为此，我们提出了一种更适用于不平衡数据的边缘拉普拉斯得分（Marginal Laplacian Score，MLS）算法，并将其集成到现代特征选择方法中，形成 DUFS-MLS。该方法在合成数据和公共数据集上展示了鲁棒性和改进性能。

Nov, 2023

特征合奏：判别特征选择遇见无监督聚类

本文提出了一种高效的算法，以一种高效、紧凑的方式从候选项中发现输入特征或分类器的稀疏表示，用于大规模识别，并在训练速度和性能方面显着优于传统方法和强大的分类器，特别是在有限的训练数据的情况下。

Nov, 2014

OutRank: 使用基于自动机器学习的模型搜索加速大规模稀疏数据集的处理 — 考虑基数的特征排序

OutRank 是一个用于多功能特征排序和数据质量相关异常检测的系统，可在推荐系统中探索比 AutoML 系统大多达 300% 的特征空间，加快在现成硬件上搜索更好模型。

Sep, 2023