Wasserstein 距离下的 Minimax 分布估计
本论文基于 Wasserstein 空间的球体不确定性集合,提出了用于统计学习的极小极大框架,并证明了涉及原始极大似然问题的覆盖数特性的一般化界限。 作为一个具体的例子,我们为基于传输的域自适应问题提供了推广保证,其中源域和目标域分布之间的 Wasserstein 距离可以可靠地从未标记样本中估算。
May, 2017
本文提出了一个基于 Wasserstein 距离的多标签学习损失函数,基于概率度量体提供了一种自然的概念。该算法可以有效鼓励模型在输出空间中使用所选度量的平滑性,并用 Yahoo Flickr Creative Commons 数据集上的标签预测问题验证了性能。
Jun, 2015
使用 Wasserstein 距离对分布进行差分私密密度估计,并设计了可以适应简单实例的实例最优算法,对于特殊情况下的离散分布,结果还导致了 TV 距离下的实例最优私密学习。
Jun, 2024
通过随机目标函数的线性规划问题,实现有限点概率分布的经验 Wasserstein 距离的渐近分布,以方便进行统计推断(例如,基于样本的 Wasserstein 距离的置信区间);该结果基于定向 Hadarmard 可微性,证明了经典引导法及其替代方法的失败。同时,该分布特性在两个数据集上得到了证明其实用性的验证。
Oct, 2016
研究使用 Wasserstein metric 中有限训练数据集,构建球形分布空间来解决分布鲁棒优化问题,并阐述其在投资组合优化和不确定性量化等领域的实用性和性能保证。
May, 2015
提出了一种基于 Wasserstein 模糊集的分布鲁棒的最小均方误差估计模型,该模型可以被视为一个零和博弈,其中一个统计学家选择估计器,另一个虚构对手选择一个先验,通过最小化和最大化预期的平方估计误差来实现其目标。
Nov, 2019
本文提出了一种新的统计模型 —— 尖峰运输模型,该模型规范化了两个概率分布仅在低维子空间上不同的假设。我们研究了在这个模型下 Wasserstein 距离的最小二乘率,并表明这种低维结构可以避免维度灾难。通过最小二乘分析,我们得出了一个下界,表明在缺少这样的结构的情况下,插值估计量在高维度中几乎是最优的。我们还提供了统计和计算难度之间的差距的证据,并猜测任何计算上有效的估计量注定受到维数灾难的影响。
Sep, 2019
分布变化是现代统计学习中的一个严重问题,我们研究了 Wasserstein 分布变化以及联合分布变化,分析了一些重要的统计问题,包括位置估计、线性回归和非参数密度估计。对于均值估计和线性回归的预测误差,我们找到了最小二乘风险和最不利扰动,并证明了样本均值和最小二乘估计量分别是最优的。对于其他问题,我们提供了几乎最优的估计器和精确的有限样本界限。我们还引入了几种用于边界化分布变化的最小风险的工具,如平滑技术、最不利优先级序列的推广以及 Le Cam、Fano 和 Assouad 方法的泛化。
Aug, 2023
本文研究 Wasserstein 距离的问题,得出了关于概率测度的收敛速度的渐近结果和有限样本结果。结果表明,随着样本量 $n$ 的增加,测度可以呈现出不同的收敛速度。
Jul, 2017