本文提出了一种名称为 CDS 的新的聚类方法,其使用学习出的判别式相似度对数据集进行无监督聚类,并通过 Rademacher 复杂度对其进行了一般化分析。同时,使用核密度分类的积分平方误差界也可以导出所得到的判别相似度。在使用核函数作为相似度函数的情况下,使用 CDS 聚类方法的有效性已通过实验结果得到证明。
Sep, 2021
提出了一种计算理论和半监督聚类算法,将聚类定义为根据所选的聚类原则和度量方法获得数据分组,使每个组不包含异常值,所有其他示例被认为是边缘点,孤立的异常值、异常簇或未知簇。
Jun, 2023
该论文提出了一种利用 BIC 准则对数据集进行聚类的算法,将高斯聚类的最优数量组合成从统计上可分离的超聚类,该算法包括三个阶段:将数据集表示为高斯分布的混合聚类,使用马氏距离估计聚类间的距离和聚类大小,利用 DBSCAN 方法将聚类组合成超聚类,该算法自动检测最佳数量和形状的超聚类,具有较好的结果和能预测新数据的软聚类能力,但速度较慢,最终聚类结果具有随机性。
Sep, 2023
本文提出了一种新的深度学习框架,可以在 instance 和 cluster 级别预测可解释的聚类分配,并在基因组序列、医疗记录或图像等数据上验证了该方法的可靠性和可解释性。
本文探讨了聚类的困难性和可聚类性的主题。作者提出了以前的研究和对聚类簇合法性的批判性评估。虽然我们相信聚类只有在数据不重要时才是困难的,但我们认为这个 CDNM 论点仍远未得到正式的实质性证明。在阐述了聚类簇合法性的基本要求后,本文评估了这些要求的现有结果,并概述了一些研究挑战和开放问题。
Jan, 2015
本文研究的是隐私保护聚类算法,提出了一个依据难易程度来组合本来不带保护性质的聚类算法和隐私保护结果的框架,并在高斯混合数据和 $k$-means 算法中实现了样本复杂度较小的聚类效果进行了实证评估。
Dec, 2021
该论文研究了 $k$-means 算法的能力,正确地恢复互相分离的簇群。基于常见的簇群定义,考虑了簇内同质性和簇间多样性的要求,并找到了一种特殊情况的互相分离簇群,使得 $k$-means 的代价函数全局最小值与互相分离性一致。通过实验发现各种 $k$-means 品牌实际上无法发现互相分离的簇群,因此提出了一种新的算法,通过重复子抽样选择种子的方式,对 $k$-means++ 进行变体改进,并在任务中胜过 $k$-means 系列中的其他四种算法。
Aug, 2023
该研究采用信息理论的视角来重新构造聚类问题,避免了许多现有聚类方法所依赖的非常规结构的假设,且捕捉了非线性关系。基于集体相似度而非传统的成对度量,该方法在不同领域内都表现出比现有算法更高的聚类一致性。
Nov, 2005
本文提出了一种基于决策树分类器的迭代方法来提取高密度的、可 解释的同一类别数据集群,并讨论了最大化识别群组质量的节点选择方法。
Jul, 2023
我们提出了一种新的深度聚类网络,利用信息理论差异度量的鉴别能力,提出了一种新颖的损失函数,避免了聚类分区的退化结构。
Feb, 2019