聚类算法的指标对无关特征的敏感性

Feb, 2024

聚类算法的指标对无关特征的敏感性

Cluster Metric Sensitivity to Irrelevant Features

Miles McCrory, Spencer A. Thomas

TL;DR聚类算法在数据分析中被广泛使用，本文研究了加入无关特征对聚类结果的影响，并发现 Silhouette 系数和 Davies-Bouldin 分数对无关特征最为敏感，因此可用于无监督聚类任务中的特征选择。

Abstract

clustering algorithms are used extensively in data analysis for data exploration and discovery. Technological advancements lead to continually growth of data in terms of volume, dimensionality and complexity. Thi

clustering algorithms data analysis feature relevance irrelevant features unsupervised clustering

发现论文，激发创造

在群体公平设置中检测敏感特征的统计学方法

本文提出了一种基于 Hilber-Schmidt 独立性准则的预处理步骤，用于自动识别敏感特征，以解决机器学习模型在高度影响社会的决策支持系统中不公平结果的问题。我们的实验结果证明了我们的假设，并表明文献中被认为是敏感的几个特征不一定产生不公平结果。

May, 2023

使用特征重新缩放因子恢复带有噪声特征的数据集中的聚类数

本文介绍了三种重新调整数据集以提高对具有附加噪声特征的球形高斯簇返回聚类有效性指数的真实数量的可能性的方法，论文实验表明这些方法可以在不同聚类中考虑到不同特征的度量，以及这些方法可以增加估计数据集中真实聚类数量的准确性。

Feb, 2016

相关性下的变量重要性排序挑战

变量重要性在可解释机器学习中起着关键作用，它有助于衡量因素对预测模型输出的影响。我们的研究重点是评估和评估旨在解决变量重要性评估中特征相关性问题的方法，如条件预测影响（CPI）等，我们首先进行综合模拟研究，调查特征相关性对变量重要性评估的影响，然后通过 knockoff 构造从理论上证明高相关特征对 CPI 的限制。我们的发现强调了处理高特征相关性时的困难和方法在变量重要性评估中的实用性和局限性的必要性。

Feb, 2024

一种评估特征选择和排序算法稳定性的信息论方法

特征选择是处理高维数据时的关键步骤，本文提出了一种基于 Jensen Shannon 散度的信息论方法来衡量算法的稳定性，该方法能够适用于不同的算法输出结果，并具备校正变化、上下界和确定性选择条件等优良特性。通过在控制条件下生成的数据和与其他流行度量标准的比较，验证了该稳定性度量标准的实用性和优势。在实际问题中，该方法对于食物质量评估具有潜在的稳定性评估能力。

Feb, 2024

基于集合博弈理论的无监督分类数据特征排序

本文提出了一种基于博弈理论、计算特征重要性的方法，用于无监督特征选择并消除冗余，结果表明该方法在降低冗余率的同时最大化数据信息。同时，本文还介绍了一种计算 Shapley 值的算法的近似版本，使其能够降低复杂度。

May, 2022

使用特征退火独立规则进行高维分类

该研究探讨了高维特征对分类准确性的影响，提出了一种名为 FAIR 的特征筛选方法，并利用两样本 t 检验的阈值确定关键特征选择的数量，实验证明其具有优越性。

Jan, 2007

距离排名得分：针对不平衡数据集的无监督特征选择过滤方法

介绍了一种针对不平衡多类别数据集的新型无监督特征选择过滤方法，并与现有的适用于无监督数据的过滤方法进行了比较。该方法基于 Spearman 等级相关系数，避免了现有方法中特征方差不适用于不同类型观测的问题。该方法已在多个聚类问题中进行了性能测量。

May, 2023

随机模型对聚类相似性的影响

本论文研究聚类的相似性度量方法，为不同的随机聚类模型推导了两个校正变体，比较了它们在合成例子，手写识别和基因表达数据中的效果，并指出随机聚类模型的选择对评估聚类方法和聚类对比排序有重大影响。

Jan, 2017

通用框架：关于对算法无关变量重要性的推断

本文提出了关于变量重要性的非参数推断的一般框架，定义了变量重要性作为所有可用特征与除考虑特征外的所有特征之间的神谕可预测性的总体对比，并提出了有效的估计程序和策略。

Apr, 2020

类比相关指数

本文提出了一种基于类比比例的特征选择方法，即将类似性和不同性在两个标签不同的特征对 (a, b) 和 (c, d) 之间的相对关系应用于 (c, d)，并介绍了基于此的 Analological Relevance Index（ARI）作为一种统计测试来判断一个特征在标签方面的显著性，该方法能有效地检测特征冗余。

Jan, 2023