用 Wasserstein 距离估计切空间和维数
本文旨在建立流形学习算法在紧凸子集上绝对连续概率测度空间中的理论基础,其中测度空间以 Wasserstein-2 距离 W 度量。我们首先介绍了概率测度子流形 Λ 的一种自然构造,配备了度量 Wλ,这是 W 对 Λ 的测地距离限制。与其他构造形成对比,这些子流形不一定是平坦的,但仍然允许类似于 Riemann 流形的局部线性化。然后,我们展示了如何仅通过 Λ 的样本集合和外在 Wasserstein 距离 W 来学习(Λ,Wλ)的潜在流形结构。特别地,我们展示了度量空间(Λ,Wλ)可以从具有节点 Λ 样本集合和边权重 W (λi, λj) 的图中,按照 Gromov-Wasserstein 的意义上逐渐恢复。此外,我们通过对从 λ 到足够接近和不同的样本 Λ 集合中,使用最优输运映射的合适 “协方差算符” 的谱分析,展示了如何渐近地恢复样本 λ 处的切空间。本文最后给出了一些关于子流形 Λ 的具体构造以及通过谱分析恢复切空间的数值例子。
Nov, 2023
本文介绍利用 Wasserstein 距离和最优输运理论分析数据集中随机概率测度(如多重直方图或点云)的最新统计学贡献,并重点介绍在 Wasserstein 空间中使用重心和测地线 PCA 的好处,用于学习数据集中几何变化的主要模式。同时,本文讨论了与统计优化输运相关的一些研究方向。
Jul, 2019
论文阐述了位于 Wasserstein 空间的数据流形学习中的关于随机向量在 $\mathbb {R}^n$ 中的二次 Wasserstein 距离的一些已知下界,重点考虑应用于数据的仿射变换。具体而言,通过计算协方差矩阵之间的 Bures 度量,给出了关于在 $\mathbb {R}^2$ 中具有不相关分量的随机向量的旋转副本的具体下界。我们还推导了由仿射映射组成的上界,从而产生了多样的微分同胚,应用于初始数据度量。我们将这些界限应用于各种分布,包括位于 $\mathbb {R}^2$ 中的 1 维流形上的分布,并展示了界限的质量。最后,我们提出了一个可以应用于流形学习框架中的模仿手写数字或字母数据集的框架。
Oct, 2023
在这项研究中,我们探讨了在概率空间上定义的 Sobolev 平滑函数的数值逼近的挑战性问题。我们采用三种基于机器学习的方法,通过求解有限个最优传输问题和计算相应的 Wasserstein 潜势,使用 Wasserstein Sobolev 空间中的经验风险最小化和 Tikhonov 正则化,以及通过表征 Tikhonov 泛函的 Euler-Lagrange 方程的弱形式来解决这个问题。作为理论贡献,我们对每种解决方法的泛化误差提供了明确且定量的界限。在数值实现中,我们利用适当设计的神经网络作为基函数,经过多种方法的训练,使我们能够在训练后快速评估逼近函数。因此,我们的构造性解决方案在相同准确性下显著提高了评估速度,超过了现有方法数个数量级。
Oct, 2023
介绍了在具有有限二阶矩的线上概率测度空间中引入测地线主成分分析(GPCA)的方法,并探讨了该方法相对于概率密度的标准功能主成分分析的优势。使用实例说明该方法在数据分析方面的优点,同时应用于人口金字塔的真实数据集。
Jul, 2013
本文提出一种泛化近期针对有限维欧几里得空间和有界函数空间的结果的,衡量概率测度和其经验版本之间期望 Wasserstein 距离的上界方法,并将其推广到具有大维度的欧几里得空间及分离的 Hilbert 空间中的 Gaussian process。此外,结合均值集中结果,给出了 Bernstein 型或 log Sobolev 型条件下,经验测度的 Wasserstein 误差的改进指数尾部概率界。
Apr, 2018
该研究提出了一种基于熵正则化、近似 Sinkhorn 缩放和高斯核矩阵低秩逼近的算法,用于计算两个点云或离散分布之间的二次输运度量(也称为 2-Wasserstein 距离或均方根距离),其复杂度为 O (n)。
Oct, 2018
本文提出了一种新的无监督学习和数据降维算法,该算法利用邻域连接矩阵的部分特征分解将未组织的数据点表示为流形上的全局坐标,并使用切空间对流形的局部几何特征进行建模。作者通过实验证明了该算法的正确性,并指出了进一步研究的几个理论和算法问题。
Dec, 2002
本文提出了一种基于 Wasserstein 度量的分布化空间中的实例分类方法,其中包括使用 k 最近邻算法、k 均值聚类和伪混合建模等基于距离的分类算法。通过最大化 Fisher 比例的原则,通过迭代算法在向量空间中进行比例最大化来实现此方法,以增强分类性能,并证明其优于操作基于分布数据的向量表示的已建立算法。
May, 2024