随机聚类嵌入

Aug, 2021

Stochastic Cluster Embedding

Zhirong Yang, Yuwei Chen, Denis Sedov, Samuel Kaski, Jukka Corander

TL;DR本文提出了一种基于邻域嵌入的新型集群可视化方法，使用非归一化 Kullback-Leibler 散度和缩放参数以进一步优化数据聚类的可视化效果。

Abstract

neighbor embedding (NE) aims to preserve pairwise similarities between data items and has been shown to yield an effective principle for data visualization. However, even the best existing NE methods such as Stochastic

neighbor embedding data visualization sne kullback-leibler divergence cluster visualization

发现论文，激发创造

用对比学习进行监督式随机近邻嵌入

在保留数据集邻近信息的范围内，我们将自监督对比方法扩展到完全监督的设置，以有效利用标签信息。属于同一类别的样本集群在低维嵌入空间中聚集在一起，同时将不同类别的样本集群推开。

Sep, 2023

核 t 分布随机邻域嵌入

本文介绍了 t-SNE 算法的核化版本，能够将高维数据映射到低维空间并在非欧几里德度量下保留数据点之间的成对距离，可以通过仅在高维空间或在两个空间中使用核技巧来实现，提供了数据点之间关系的新视角，改进了包括使用核方法的分类问题的性能和准确性，并利用多个数据集阐明了 t-SNE 和其核化版本之间的区别，展示了不同类别点的更整洁的聚类。

Jul, 2023

对比学习暗中进行着随机邻居嵌入

本文探讨了无监督自学习对偶损失模型（SSCL）的理论基础，提出了在随机邻居嵌入（SNE）视角下，使用数据增强构建 “正” 偶对实现了对输入空间对比度的优化，通过与 SNE 对应，进一步提供了方法学指导并证明了使用域不可知增强与隐式偏见得到的潜在优势，同时证明了从 SNE 到 t-SNE 转换的适用性并在实验中取得了相应的优化效果。

May, 2022

高效可视化大型图

本文介绍了一种基于降维的新颖图形可视化方法，称为 t-SGNE。t-SGNE 专门设计用于可视化图中的聚类结构，并通过使用图的邻居结构将时间复杂度从二次降低到线性的方式，支持更大规模的图。此外，结合拉普拉斯特征图嵌入算法和图中的最短路径算法形成了图嵌入算法 SPLEE，可以在 5 分钟内对具有 300K 节点和 1M 边缘的图进行可视化，且可视化质量提升约 10%。

Oct, 2023

t-SNE 可视化高维聚类数据的理论基础

本文对 t-SNE 算法的理论框架进行了研究，在梯度下降法的基础上提出了一种新的理论框架；对于 t-SNE 的 embedding 阶段，文中还对其低维映射的运动学进行了表征和说明。通过本文，我们发现了 t-SNE 的内在机制并说明其在可视化聚类数据方面具有非凡的实用性。

May, 2021

高效算法的 t - 分布随机邻域嵌入

本论文介绍了一种名为 FIt-SNE 的快速傅里叶变换加速插值 t-SNE 方法和 out-of-core PCA 方法，这些方法可以加速 t-SNE 的计算，并允许在资源有限的计算机上计算大型数据集的 t-SNE。

Dec, 2017

条件网络嵌入

本文介绍了一种新的条件网络嵌入方法，使用贝叶斯方法进行实现，本方法可以在一些网络结构较为复杂的情况下提高嵌入方法的表现，适用于网络的链接预测、多标记分类等任务，并且不增加计算复杂度。

May, 2018

基于随机邻域嵌入的域自适应 $d$-SNE

该论文提出了一种名为 $d$-SNE 的域适应技术，通过使用随机邻域嵌入技术和一种新的修改 Hausdorff 距离，学习端到端，使其非常适合训练神经网络，并且在实验中表现出优于当前最先进技术的性能，并且能够同时推广到多个领域。

May, 2019

数据可视化中 t-SNE 算法的分析

通过建立数据可视化形式的二维嵌入来正确地分离数据簇，使用 t-SNE 启发式的数据可视化方法在广泛的应用场景中成为事实上的标准，该研究提供了一种正式框架和分析，以分析数据可视化问题下 t-SNE 的性能表现，并且在满足特定条件时能部分恢复聚类结构。

Mar, 2018

声学邻居嵌入

本文提出一种新颖的声学单词嵌入，名为声学邻域嵌入，其中利用随机邻近嵌入（SNE）将任意长度的语音或文本映射到固定的、降维的向量空间中。通过训练两个编码器神经网络，它在神经网络训练中具有更有效的梯度，并在单词（名称）识别任务中显著提高了准确性，特别是在使用新的嵌入向量之间的欧几里德距离进行孤立名称识别任务时。

Jul, 2020