大规模高维数据集的最小生成树可视化

Aug, 2019

大规模高维数据集的最小生成树可视化

Visualization of Very Large High-Dimensional Data Sets as Minimum Spanning Trees

Daniel Probst, Jean-Louis Reymond

TL;DR本文介绍了一种新的数据可视化方法 TMAP，可将高维数据集表示为二维树，具有结构保持、透明性等优点，比 t-SNE 或 UMAP 更适用于化学、生物、物理等领域的数据集的探索和解释。

Abstract

The chemical sciences are producing an unprecedented amount of large, high-dimensional data sets containing chemical structures and associated properties. However, there are currently no algorithms to visualize s

chemical sciences data visualization tmap high-dimensional data sets structure preservation

发现论文，激发创造

DendroMap: 用 Treemaps 进行机器学习的大规模图像数据集的可视化探索

本文提出了 DendroMap 这一新方法，可以有效地组织和交互式地探索大规模图像数据集，通过提取高维图像的层次聚类结构，用户可以在不同的抽象层级上对数据集进行总体分布的检查和兴趣区域的交互式缩放以及透视。研究结果表明，DendroMap 可以帮助用户发现数据集和训练模型方面的见解，其效果优于 t-SNE 格子化版本，DendroMap 已经在网站上提供。

May, 2022

可视化大规模高维数据

本文提出了一种叫做 LargeVis 的技术，旨在解决将大规模和高维数据可视化在低维空间的问题。与 t-SNE 相比，LargeVis 构建精确近似的 K 最近邻图的计算成本更低，并采用了一个原则上的概率模型来进行可视化，整个过程易于扩展到数百万个高维数据点。实验结果表明，LargeVis 在效率和效果方面均优于现有的先进方法。

Feb, 2016

ShapeVis：大规模高维数据可视化

本文提出了一种基于拓扑数据分析的可扩展点云数据可视化技术 ——ShapeVis，通过构建数据流形上的加权见证图和从标准社区检测算法中引入的感应映射来压缩表示点云特征，并使用模块化方法剪枝和重建图形以总结数据的形状。与 Mapper 方法相比，我们的算法可以适用于成百万点数据的可视化展示。

Jan, 2020

使用 GTSNE 可视化数据

GTSNE 是一种可视化高维数据点的新方法，通过捕捉数据的局部邻域结构和宏观结构来获得更好的可视化表现，并在广泛的数据集上展示了其性能优于 t-SNE 和 UMAP 等传统方法。

Aug, 2021

TriMap：使用三元组进行大规模降维

TriMap 是一种基于三元组约束的降维技术，能够更好地保留数据的全局结构，相比 t-SNE、LargeVis 和 UMAP 等常用方法，它具有更快的运行时间和更好的簇相对位置，而且能够处理数百万个点。

Oct, 2019

理解降维工具的工作原理：一种实证方法用于解析 t-SNE、UMAP、TriMAP 和 PaCMAP 进行数据可视化

本文旨在深入探讨降维方法中保留局部和全局结构的重要性，针对保留局部结构提出了一些新的设计原则，并发掘出保留哪些部分对于保持全局结构的重要性，在此基础上提出一种新的降维算法 PaCMAP，该算法同时保留了局部和全局结构，并为构建降维算法时提供了一些出乎意料的设计选择报告。

Dec, 2020

利用三元组实现更加全局准确的降维方法

我们展示了经常使用的降维方法，如 t-SNE 和 LargeVis，不能很好地捕捉低维度嵌入中数据的全局结构，并提出了一种名为 TriMap 的新方法，使用三元组信息来捕获更高级别的结构，通过实验证明 TriMap DR 结果具有明显的优势。

Mar, 2018

高效可视化大型图

本文介绍了一种基于降维的新颖图形可视化方法，称为 t-SGNE。t-SGNE 专门设计用于可视化图中的聚类结构，并通过使用图的邻居结构将时间复杂度从二次降低到线性的方式，支持更大规模的图。此外，结合拉普拉斯特征图嵌入算法和图中的最短路径算法形成了图嵌入算法 SPLEE，可以在 5 分钟内对具有 300K 节点和 1M 边缘的图进行可视化，且可视化质量提升约 10%。

Oct, 2023

NeuroDAVIS：一种用于数据可视化的神经网络模型

本文介绍了一种名为 NeuroDAVIS 的无监督深度神经网络模型，用于高维数据的降维和可视化，该模型在大量合成和真实高维数据集上表现出了竞争力，特别是在保留数据大小、形状和本地全局结构方面。

Apr, 2023

CBMAP：基于聚类的流形逼近和投影用于降维

介绍了一种基于聚类的降维方法 CBMAP，旨在同时保留全局和局部结构，提供速度、可扩展性和对超参数依赖较小的解决方案，满足机器学习应用中对测试数据的低维投影的需求。

Apr, 2024