Wasserstein t-SNE

KDDMay, 2022

Fynn Bachmann, Philipp Hennig, Dmitry Kobak

TL;DR本文介绍了一种使用 Wasserstein 距离度量内部分布形状的探索性层次数据集分析方法，并使用 t-SNE 构建了两维嵌入空间，以揭示 2017 年德国议会选举数据中分区与投票站之间的有意义结构。

Abstract

Scientific datasets often have hierarchical structure: for example, in surveys, individual participants (samples) might be grouped at a higher level (units) such as their geographical region. In these settings, the interest is often in exploring the structure on the unit level rather than on the sample level. Units can be compared based on the distance betwe

hierarchical datasets wasserstein distance t-sne exploratory analysis two-dimensional embeddings

发现论文，激发创造

学习 Wasserstein 嵌入

本文介绍一种利用同配网络和解码器实现对 Wasserstein 距离进行逼近的方法，该方法可用于快速处理优化问题，如重心、主要方向或原型，在图像数据集上已经进行了实验。

Oct, 2017

数据可视化中 t-SNE 算法的分析

通过建立数据可视化形式的二维嵌入来正确地分离数据簇，使用 t-SNE 启发式的数据可视化方法在广泛的应用场景中成为事实上的标准，该研究提供了一种正式框架和分析，以分析数据可视化问题下 t-SNE 的性能表现，并且在满足特定条件时能部分恢复聚类结构。

Mar, 2018

学习嵌入到熵 - Wasserstein 空间

本文研究了一种称为 Wasserstein space 的新型嵌入方法，它在嵌入数据时不受限于欧几里得空间假设，可以更好地捕捉数据的潜在语义结构，同时对于更广泛的度量结构也具有更大的灵活性，并演示了其在词嵌入方面的应用。

May, 2019

t-SNE 可视化高维聚类数据的理论基础

本文对 t-SNE 算法的理论框架进行了研究，在梯度下降法的基础上提出了一种新的理论框架；对于 t-SNE 的 embedding 阶段，文中还对其低维映射的运动学进行了表征和说明。通过本文，我们发现了 t-SNE 的内在机制并说明其在可视化聚类数据方面具有非凡的实用性。

May, 2021

Wasserstein 均值下的多层聚类

本文提出一种新的方法来解决多层次聚类问题，该方法旨在同时将数据在每个组中分区，并在潜在的大型分层结构数据集中发现组间的分组模式。我们的方法涉及到多个离散概率测度空间上的联合优化方案，这些测度空间具有 Wasserstein 距离度量。通过利用与 Wasserstein barycenter 问题的联系，我们提出了该问题的许多变体，这些变体可以采用快速的优化算法。本文还建立了局部和全局聚类估计的一致性性质。最后，使用合成和真实数据展示了所提出方法的灵活性和可扩展性。

Jun, 2017

核 t 分布随机邻域嵌入

本文介绍了 t-SNE 算法的核化版本，能够将高维数据映射到低维空间并在非欧几里德度量下保留数据点之间的成对距离，可以通过仅在高维空间或在两个空间中使用核技巧来实现，提供了数据点之间关系的新视角，改进了包括使用核方法的分类问题的性能和准确性，并利用多个数据集阐明了 t-SNE 和其核化版本之间的区别，展示了不同类别点的更整洁的聚类。

Jul, 2023

Wasserstein 空间中的统计数据分析

本文介绍利用 Wasserstein 距离和最优输运理论分析数据集中随机概率测度（如多重直方图或点云）的最新统计学贡献，并重点介绍在 Wasserstein 空间中使用重心和测地线 PCA 的好处，用于学习数据集中几何变化的主要模式。同时，本文讨论了与统计优化输运相关的一些研究方向。

Jul, 2019

重尾核揭示 t-SNE 可视化中更精细的聚类结构

该论文介绍了一种新的降维数据可视化方法 t-SNE，使用一个具有任意自由度的 t 分布核，并演示了通过修改 t-SNE 核函数的尾重量可以揭示更细节的簇结构，解决了 SNE 的拥挤问题，同时证明了这种方法在实际应用中具有实用意义。

Feb, 2019

立体地球切片瓦塞尔斯坦距离

本论文介绍了一种用于比较球形概率测度的高速、高度并行化的距离度量方法 ——Stereographic Spherical Sliced Wasserstein (S3W) 距离，并通过广泛的理论分析和数值研究评估了该距离与最近基准方法在速度和准确性方面的表现。

Feb, 2024

快速拓扑聚类算法与 Wasserstein 距离

本文提出了一种基于持续同调和最优传输理论的新型计算实用的拓扑聚类方法，通过计算与节点连接部件和环相关联的持久条形码的 Wasserstein 距离和重心，对具有复杂拓扑结构的网络进行聚类，并在保留不同网络之间的节点对应关系的同时聚合网络。在模拟网络和测量功能脑网络上验证了该方法的有效性。

Nov, 2021