基于数据分布的图像聚类算法

CVPRApr, 2018

Dimensionality's Blessing: Clustering Images by Underlying Distribution

Wen-Yan Lin, Siying Liu, Jian-Huang Lai, Yasuyuki Matsushita

TL;DR通过使用大数定律重新衍生出的 “对比损失”，我们将其重新解读为一种 “福音”，这种现象使得分布的实例集中在一个狭窄的 “超壳” 上，从而实现数据点的聚类，并且能够从未组织的数据中寻找模式。

Abstract

Many high dimensional vector distances tend to a constant. This is typically considered a negative "contrast-loss" phenomenon that hinders clustering and other →

high dimensional vector distances contrast-loss distribution-clustering machine learning unorganized data

发现论文，激发创造

聚类分析中的形状复杂性

利用多维数据的形状复杂度概念，应用在特定的非线性函数上，制定了一种新的 “中等距离” 下的基于约束的非线性规划问题，从而探索更有效的聚类缩放因子数量的方法。

May, 2022

潜在维度聚类

本文提出了一种称为渐进聚类的新技术，它将每个数据点通过其潜在的点维度进行聚类，该点维度是与该点本地数据集的维度有关的尺度。这种渐进聚类技术可以广泛应用于各种数据集的分析中，并通过距离方法以点的第 n 个最近邻点来评估数据点的点维度，同时将其应用于动态系统、图像和人类动作等领域进行分析。

May, 2018

在高维空间中桥接分布学习与图像聚类

通过利用自动编码器将图像编码为高维潜空间，并使用 Monte-Carlo 边缘化和 Kullback-Leibler 散度损失来拟合 Gaussian Mixture Models (GMM) 的高斯成分和学习数据分布，从而实现图像聚类，并展示在高维空间中，相比于经典的 Expectation-Maximization (EM) 算法，MCMarg 和 KL 散度能够极大地缓解聚类算法面临的困难，实验证明了分布学习在利用 GMM 进行高维图像聚类方面的潜力。

Aug, 2023

高维超统计特征分类

研究在高维情况下通过经验风险最小化学习具有通用质心的两个数据点云的特征，涵盖了大量的数据分布，包括高斯混合分布和幂律分布，并分析了通过正则化的作用，推导了估计器的泛化性能，并探究了分布尺度参数对可分离性转换的影响。

Apr, 2023

相对内在维度与学习的内在性

高维数据具有令人惊讶的特性：仅使用简单的线性分类器就可以高概率地将数据点配对分开，甚至从任意子集中分离出来。我们引入了数据分布的内在维度的新概念，精确地捕捉了数据的可分离性质。对于这个内在维度，以上的经验法则成为一条规律：高内在维度保证了数据的高可分离性。我们将这个概念扩展为两个数据分布的相对内在维度，并证明它提供了成功学习和推广二元分类问题的概率的上下界。

Oct, 2023

可微分的深度聚类 + 聚类大小限制

通过将 $k$-means 聚类算法重写为最优传输任务，并加入熵正则化，我们提出了一种全新的方法，其中嵌入是由深度神经网络执行的，表明与现有的基于软 $k$-means 的最新方法相比，我们的最优传输方法提供更好的无监督准确度，不需要预训练阶段。

Oct, 2019

广义密度聚类

本研究研究了广义密度聚类，提出了两种数据基础方法来选择波宽，并研究了密度聚类的稳定性，表明一种简单的基于图的算法可以成功地近似高密度聚类。

Jul, 2009

基于结构化图像的快速聚类方法，用于可扩展的统计分析

本文旨在通过探究基于快速聚类的交替方案，用于替代耗时的函数评估来降低记忆需求，从而处理大规模的脑成像数据。结果表明，基于聚类的压缩在提高之后的估计步骤的精度方面有良好的效果，能够用于分析大型数据集。

Nov, 2015

深度连续聚类

通过深度自编码器实现非线性降维和聚类，优化作为聚类过程的自编码器，避免之前聚类算法中离散目标的缺陷，无需先验知识即可进行聚类，实验证明该算法优于状态的聚类方案并具有普适性。

Mar, 2018

数据形态：数据分布的内在距离

用 Gromov-Wasserstein 距离的下界，通过对所有数据矩计算，基于内在和多尺度的方法对比数据流形。实验证明，该方法能够有效地识别不同维度未对齐数据的结构，并展示了在评估生成模型质量方面的功效。

May, 2019