用于表征和半监督学习的参数化 UMAP 嵌入
UMAP 是一种基于黎曼几何和代数拓扑的流形学习技术,可以作为机器学习中通用的降维算法,具有与 t-SNE 相当的可视化质量和更好的整体结构保留能力,并且没有关于嵌入维度的计算限制。
Feb, 2018
在脑机接口领域,我们引入了一种名为近似 UMAP(aUMAP)的新方法,用于实时推断,其结果显示该方法能够在减少投影速度一个数量级的同时维持与标准 UMAP 相同的训练时间和投影空间。
Apr, 2024
本研究探讨了在医学分割的主动学习领域中,熵和代表性采样技术的混合模型,特别是研究了 UMAP(均匀流形逼近和投影)作为捕捉代表性的技术的作用。通过在医学分割十项挑战中使用心脏和前列腺数据集进行验证,我们发现新颖的熵 - UMAP 采样技术的混合组合在 Dice 分数上显著优于随机基线(心脏为 3.2%,前列腺为 4.5%),并在我们研究的 10 种不同主动学习方法中获得了最高的 Dice 系数。这提供了初步证据表明,在混合主动学习模型中,熵和 UMAP 方法之间存在着有趣的协同作用,其中前者在后者之前起到了积极的作用。
Dec, 2023
GLoMAP 及其归纳版本 iGLoMAP 是一种新颖的流形学习方法,用于非线性降维和高维数据可视化,能有效地保留局部和全局的距离估计,并通过优化过程逐步展示从全局到局部形成的进展。iGLoMAP 通过深度神经网络使得在未见过的数据点上能够提供低维嵌入而无需重新训练算法,并适用于小批量学习,以加快梯度计算速度。经过与当前最先进的方法进行竞争性实验,在模拟数据和真实数据环境下成功应用了 GLoMAP 和 iGLoMAP。
Jun, 2024
本研究针对 UMAP 在高维数据可视化方面超越 t-SNE 等方法的原因进行了详细调查,并推导出了 UMAP 的有效损失函数,发现它不同于已发表的损失函数。我们认为 UMAP 的成功关键在于其负采样实现的引力和斥力的平衡,并通过梯度下降法进行优化,这在玩具和单细胞 RNA 测序数据上得到了验证。
Mar, 2021
提出了一种基于层次结构的 1 - 最近邻图的新方法,可以在保留数据分布多个级别的分组属性的同时,实现具有可解释机制、可视化品质高、运行速度快且可用于多种场景的非监督降维技术,并在不同规模、不同维度的多个数据集上进行了性能比较。
Mar, 2022
介绍了一种基于聚类的降维方法 CBMAP,旨在同时保留全局和局部结构,提供速度、可扩展性和对超参数依赖较小的解决方案,满足机器学习应用中对测试数据的低维投影的需求。
Apr, 2024
该论文表明降维方法 UMAP 和 t-SNE 可以近似重构为与 ProbDR 中引入的广义 Wishart 模型对应的 MAP 推断方法,这种解释不仅可以提供对这些算法更深入的理论洞察,还引入了研究类似降维方法的工具。
May, 2024
深度学习模型的数据增强技术在提高性能方面发挥重要作用。本文提出了一种叫做 UMAP Mixup 的混合正则化方案,用于深度学习预测模型的 “在流形上” 自动数据增强。该方法通过利用一种称为统一流形逼近和投影的降维技术,确保 Mixup 操作生成的合成样本位于特征和标签的数据流形上。对多样的回归任务的评估显示,UMAP Mixup 在与其他 Mixup 变种的竞争中表现出色,显示出改进深度学习模型泛化性能的潜力。
Dec, 2023
本文旨在深入探讨降维方法中保留局部和全局结构的重要性,针对保留局部结构提出了一些新的设计原则,并发掘出保留哪些部分对于保持全局结构的重要性,在此基础上提出一种新的降维算法 PaCMAP,该算法同时保留了局部和全局结构,并为构建降维算法时提供了一些出乎意料的设计选择报告。
Dec, 2020