可解释聚类与可区分性标准

Apr, 2024

Interpretable clustering with the Distinguishability criterion

Ali Turfah, Xiaoquan Wen

TL;DR基于全局的可区分性准则，本文提出了用于验证聚类分析结果以及确定数据集中聚类数量的方法，并将该准则与常用的聚类方法进行了整合，包括层次聚类、k-means 和有限混合模型。通过模拟研究和实际数据应用，我们展示了这些新算法的结果。

Abstract

cluster analysis is a popular unsupervised learning tool used in many disciplines to identify heterogeneous sub-populations within a sampl

cluster analysis unsupervised learning heterogeneous sub-populations distinguishability criterion clustering procedures

发现论文，激发创造

数据聚类的判别相似度

本文提出了一种名称为 CDS 的新的聚类方法，其使用学习出的判别式相似度对数据集进行无监督聚类，并通过 Rademacher 复杂度对其进行了一般化分析。同时，使用核密度分类的积分平方误差界也可以导出所得到的判别相似度。在使用核函数作为相似度函数的情况下，使用 CDS 聚类方法的有效性已通过实验结果得到证明。

Sep, 2021

聚类的计算理论与半监督算法

提出了一种计算理论和半监督聚类算法，将聚类定义为根据所选的聚类原则和度量方法获得数据分组，使每个组不包含异常值，所有其他示例被认为是边缘点，孤立的异常值、异常簇或未知簇。

Jun, 2023

通过寻找具有统计显著性的可分离的最佳高斯簇，进行超聚类

该论文提出了一种利用 BIC 准则对数据集进行聚类的算法，将高斯聚类的最优数量组合成从统计上可分离的超聚类，该算法包括三个阶段：将数据集表示为高斯分布的混合聚类，使用马氏距离估计聚类间的距离和聚类大小，利用 DBSCAN 方法将聚类组合成超聚类，该算法自动检测最佳数量和形状的超聚类，具有较好的结果和能预测新数据的软聚类能力，但速度较慢，最终聚类结果具有随机性。

Sep, 2023

可解释的深度聚类

本文提出了一种新的深度学习框架，可以在 instance 和 cluster 级别预测可解释的聚类分配，并在基因组序列、医疗记录或图像等数据上验证了该方法的可靠性和可解释性。

Jun, 2023

在聚类性假设下聚类的计算可行性

本文探讨了聚类的困难性和可聚类性的主题。作者提出了以前的研究和对聚类簇合法性的批判性评估。虽然我们相信聚类只有在数据不重要时才是困难的，但我们认为这个 CDNM 论点仍远未得到正式的实质性证明。在阐述了聚类簇合法性的基本要求后，本文评估了这些要求的现有结果，并概述了一些研究挑战和开放问题。

Jan, 2015

易实例的不同 ially-Private 聚类

本文研究的是隐私保护聚类算法，提出了一个依据难易程度来组合本来不带保护性质的聚类算法和隐私保护结果的框架，并在高斯混合数据和 $k$-means 算法中实现了样本复杂度较小的聚类效果进行了实证评估。

Dec, 2021

数据易于 (对于 K-Means)

该论文研究了 $k$-means 算法的能力，正确地恢复互相分离的簇群。基于常见的簇群定义，考虑了簇内同质性和簇间多样性的要求，并找到了一种特殊情况的互相分离簇群，使得 $k$-means 的代价函数全局最小值与互相分离性一致。通过实验发现各种 $k$-means 品牌实际上无法发现互相分离的簇群，因此提出了一种新的算法，通过重复子抽样选择种子的方式，对 $k$-means++ 进行变体改进，并在任务中胜过 $k$-means 系列中的其他四种算法。

Aug, 2023

基于信息的聚类

该研究采用信息理论的视角来重新构造聚类问题，避免了许多现有聚类方法所依赖的非常规结构的假设，且捕捉了非线性关系。基于集体相似度而非传统的成对度量，该方法在不同领域内都表现出比现有算法更高的聚类一致性。

Nov, 2005

利用决策树进行可解释的有监督聚类

本文提出了一种基于决策树分类器的迭代方法来提取高密度的、可解释的同一类别数据集群，并讨论了最大化识别群组质量的节点选择方法。

Jul, 2023

基于深度分歧的聚类方法

我们提出了一种新的深度聚类网络，利用信息理论差异度量的鉴别能力，提出了一种新颖的损失函数，避免了聚类分区的退化结构。

Feb, 2019