通过最优输运量化分布模型风险
通过优化传输度量,在嵌入 Hilbert 空间的流形上估计一种衡量方法,并将量化优化和学习理论联系起来,为无监督学习中经典算法(k-means)的性能提供新的概率界限。在分析的过程中,我们得出了新的下界和概率上界,这些上下界适用于广泛的测度范围。
Sep, 2012
本文研究了基于公共变量的两个联合分布的条件 Optimal Transportation 问题,提出了一种基于 Maximum Mean Discrepancy 的正则化器用于解决连续变量和分布不同的情况,进而实现了条件转移计划的估计和统计一致性证明,并在分类、few-shot 分类和细胞响应预测等领域中进行了实证评估。
May, 2023
本文章提出了一种新的方法来估计高维中两个概率分布之间的 Wasserstein 距离和最优传输方案,该方法可以在各种任务中获得显著的改进,包括单细胞 RNA 测序数据的领域适应性。该方法基于低运输秩的耦合,解决了数据驱动最优传输中的维数灾难,并得到了理论分析的支持。
Jun, 2018
该研究使用算法传输成本的期望 Wasserstein 距离得到了学习算法泛化误差的上界,为通过最优传输视图研究学习算法的泛化提供了新途径并对损失函数施加了较少的限制,并通过总变差距离、相对熵和 VC 维度提供了几个其他的算法传输成本的上界,最后基于我们的建立的框架,我们分析了深度学习中的泛化误差并得出了结论:深度神经网络中的泛化误差随着层数的增加而指数级下降。
Nov, 2018
本文提出了基于最优输运的分布鲁棒性模型训练框架,在模型空间内提高深度学习模型的鲁棒性,并将该框架应用于单个模型、集合模型、以及贝叶斯神经网络的训练中,通过广泛实验验证其有效性。
Jun, 2023
使用最优传输的方法实现了一个面向许多有向图的参数学习框架,可以灵活地从不完整数据中推断概率有向图模型中的潜在变量。在多个实验中,该方法展示了恢复真实参数和离散表示学习等任务上的优异性能。
May, 2023
本文通过隐函数定理和 Monte Carlo 模拟的方法,证明了针对有限度量空间上概率分布的经验正则化最优传输距离,尤其是 Sinkhorn 散度的极限分布为高斯分布,同时说明 Bootstrap 方法的一致性,证明了该结论的计算和统计学应用。
Oct, 2018
本文对最优传输距离的使用进行了探索,指出在大规模数据集上计算这些距离的方法是通过平均几个较小的最优传输问题的结果。我们论证了这种方法等效于原问题的隐式正则化,并具有无偏估计,梯度和期望值周围的集中度约束等吸引人的属性。同时我们还开展了梯度流、GAN 或颜色转换等经验实验,以突出这种策略的实际价值。
Oct, 2019
通过构建可决定的耦合(即传输图)来进行测量传输的基本原理,从而能够在质量复杂的概率分布中生成任意多且无权重的样本。该研究探讨了在仅可用非标准化目标密度评估或仅通过有限样本集合而已知目标分布的情况下,如何构建传输。该方法可直接应用于贝叶斯计算和基于随机模拟的广泛问题中。
Feb, 2016
本文提出了一种新的统计模型 —— 尖峰运输模型,该模型规范化了两个概率分布仅在低维子空间上不同的假设。我们研究了在这个模型下 Wasserstein 距离的最小二乘率,并表明这种低维结构可以避免维度灾难。通过最小二乘分析,我们得出了一个下界,表明在缺少这样的结构的情况下,插值估计量在高维度中几乎是最优的。我们还提供了统计和计算难度之间的差距的证据,并猜测任何计算上有效的估计量注定受到维数灾难的影响。
Sep, 2019