具有 Wasserstein 不确定性集的强健性假设检验
本研究提出了一种基于 Wasserstein 距离度量的数据驱动假设检验新框架,结构性质使得该模型的复杂度与数据维度和样本大小基本无关,有助于构建鲁棒的检测器。
May, 2018
研究使用 Wasserstein metric 中有限训练数据集,构建球形分布空间来解决分布鲁棒优化问题,并阐述其在投资组合优化和不确定性量化等领域的实用性和性能保证。
May, 2015
此论文介绍了基于 Wasserstein 分布鲁棒优化的数据驱动决策方法,能够解决样本有限、参数不确定的情况下,采用仅仅通过数据学习决策的问题,绕过测试样本不能涵盖所有情况的问题,具有良好的效果且容易计算。此方法对于分类、回归等基本学习任务有很好启示作用。
Aug, 2019
本论文基于 Wasserstein 空间的球体不确定性集合,提出了用于统计学习的极小极大框架,并证明了涉及原始极大似然问题的覆盖数特性的一般化界限。 作为一个具体的例子,我们为基于传输的域自适应问题提供了推广保证,其中源域和目标域分布之间的 Wasserstein 距离可以可靠地从未标记样本中估算。
May, 2017
通过随机目标函数的线性规划问题,实现有限点概率分布的经验 Wasserstein 距离的渐近分布,以方便进行统计推断(例如,基于样本的 Wasserstein 距离的置信区间);该结果基于定向 Hadarmard 可微性,证明了经典引导法及其替代方法的失败。同时,该分布特性在两个数据集上得到了证明其实用性的验证。
Oct, 2016
我们提出了一个新的框架来解决非凸鲁棒性假设检验问题,其中目标是寻找最佳探测器,最小化最坏情况下的第一型和第二型风险函数的最大值。我们构建了以 Sinkhorn 差异为基础的样本经验分布为中心的分布不确定性集合。通过引入问题的精确混合整数指数锥改进,我们可以在输入数据量适中的情况下得到全局最优解。然后,我们提出了一个凸近似,证明其优于当前最先进的方法学。此外,我们建立了鲁棒性假设检验和非鲁棒性风险函数的正则化表示之间的联系,提供了有深入见解的解释。我们的数值研究凸显了所提框架的令人满意的测试性能和计算效率。
Mar, 2024
本文研究表明多个机器学习评估器,包括平方根 LASSO 和正则化逻辑回归,可以表示为分布鲁棒优化问题的解决方案,其相关的不确定区域基于适当定义的 Wasserstein 距离。因此,我们的表示使我们能够将正则化视为引入人为对手的结果,该对手扰动经验分布以考虑损失估计中的样外效应。此外,我们引入了 RWPI(Robust Wasserstein Profile Inference),这是一种新颖的推断方法,它将启发式似然性方法的使用扩展到最优传输成本的设置中(其中 Wasserstein 距离是一个特殊情况)。我们使用 RWPI 展示如何最优地选择不确定性区域的大小,从而能够选择这些机器学习评估器的正则化参数,而不使用交叉验证。数值实验也给出了验证我们理论发现的结果。
Oct, 2016
本文提出了基于 Wasserstein 距离的预期泛化误差界限,并分别介绍了全数据集、单字母和随机子集限制,以及从 Steinke 和 Zakynthinou [1] 的随机子抽样设置中的类似物。此外,当损失函数有界且选择 Wasserstein 距离中的度量时,这些界从相对熵的基础上得到了更好的下限 (因此是更紧的)。在特定情况下,这些结果可以被看作是考虑了假设空间几何和基于相关熵的界限之间的桥梁。另外,本文还介绍了如何基于这些界限产生各种新的界限,并使用类似的证明技术得出关于后向通道的类似界限。
Jan, 2021
本研究表明,Wasserstein 分布鲁棒估计器的推广保证其可适用于一般模型类,并且不会受到维度诅咒,甚至可以涵盖测试中的分布偏移,这些结果可以延伸到新引入的 Wasserstein 分布性机器学习问题的正则化版本。
May, 2023
研究了采用分布鲁棒优化方法(distributionally robust optimization,DRO)来推断个性化治疗规则(individualized treatment rules,ITRs)的估计器在新设置中的应用,包括 Wasserstein distance-based ambiguity characterizations 和其在目标人群中的理论表现的评估。这个方法在目标人群中优于传统的策略。
May, 2022