高维数据聚类评估的自监督方法

May, 2023

A Self-Supervised Approach for Cluster Assessment of High-Dimensional Data

Alokendu Mazumder, Pagadala Krishna Murthy, Punit Rathore

TL;DR提出了一个基于深度学习的框架，在复杂的图像数据集中生成代表性嵌入，然后将这些低维嵌入馈送到 VAT/iVAT 算法中，以估计潜在的聚类结构。

Abstract

Estimating the number of clusters and underlying cluster structure in a dataset is a crucial task. Real-world data are often unlabeled, complex and high-dimensional, which makes it difficult for traditional clustering algorithms to perform well. In recent years, a →

clustering matrix reordering deep-learning self-supervised image datasets

发现论文，激发创造

变分自编码器中学习潜在超结构用于深层多维聚类

我们研究了一种变分自编码器的变体，其中顶层离散的潜变量是一个超结构。我们的超结构是多个超级潜变量的树结构，并且可以自动从数据中学习。与以往的深度学习方法不同，LTVAE 可以生成多个数据分区，每个分区都由一个超级潜变量给出。这是由于高维数据通常具有许多不同的自然方面，可以用多种方式进行有意义的划分。

Mar, 2018

大数据聚类草图与验证

本文提出了一种用于大数据分析的高效聚类框架 ——SkeVa family，它包括基于 k 均值聚类和核函数聚类的算法，并使用随机采样和一致性 (RANSAC) 思想进行降维和集合简化。此外还引入了一种基于离散度准则的算法。通过在大规模数据集上的实验，发现这些算法与最先进的随机投影方案相比，具有非常良好的竞争性能。

Jan, 2015

深层结构和注意力感知的子空间聚类

提出了一种新颖的深度结构和注意力感知子空间聚类方法（DSASC），同时考虑了数据内容和结构信息，通过使用视觉转换器提取特征，并将这些特征分为结构特征和内容特征，用于学习更高效的子空间结构进行谱聚类。大量实验结果表明，该方法明显优于现有方法。

Dec, 2023

NeuroDAVIS：一种用于数据可视化的神经网络模型

本文介绍了一种名为 NeuroDAVIS 的无监督深度神经网络模型，用于高维数据的降维和可视化，该模型在大量合成和真实高维数据集上表现出了竞争力，特别是在保留数据大小、形状和本地全局结构方面。

Apr, 2023

基于深度光谱聚类的数据立方体分割

扩展视觉技术在物理学中非常普遍，然而由于数据立方体的光谱构成对其解释提出了挑战。为了解决这个问题，我们探索了在编码空间中应用无监督聚类方法的可能性，通过数据立方体像素的光谱属性进行深层聚类，该过程由经过训练的变分自动编码器进行统计降维，同时聚类过程由可学习的迭代 K 均值聚类算法执行。我们将这一技术应用于两个不同的物理起源用例：一组关于绘画艺术品的宏观映射 X 射线荧光（MA-XRF）合成数据和模拟天体观测的数据集。

Jan, 2024

基于 fMRI 的大脑状态推断的监督聚类方法

提出一种基于多个脑区功能磁共振成像信号的预测方法，通过引入层次聚类和特征聚合实现降维，从而提高了预测准确性，并推断了与回归或分类任务相关的脑区的权重分配。

Apr, 2011

深度连续聚类

通过深度自编码器实现非线性降维和聚类，优化作为聚类过程的自编码器，避免之前聚类算法中离散目标的缺陷，无需先验知识即可进行聚类，实验证明该算法优于状态的聚类方案并具有普适性。

Mar, 2018

变分深度嵌入：无监督生成聚类的方法

提出了一种无监督生成聚类方法 Variational Deep Embedding (VaDE)，使用高斯混合模型和神经网络来建模数据生成过程，并在 VaDE 中使用变分推断实现更好的聚类效果，并可生成高度逼真的样本，更广泛的混合模型也可以轻松集成。

Nov, 2016

自动发现和学习新的视觉类别：基于排序统计学的方法

本文针对在一个图像集合中发现新类别的问题，提出结合自监督学习、排名统计和联合目标函数优化的方法，使用带标签和未标记数据训练数据表示模型，成功应用于标准分类基准测试中，显著优于现有的方法。

Feb, 2020

无监督嵌入质量评估

研究了评估深度神经网络自监督学习中表示质量的多种方法，包括信息嵌入量、线性可分性等，通过实验结果发现了可以无监督评估嵌入质量的方法。

May, 2023