Wasserstein 鲁棒性强化学习

Jul, 2019

Wasserstein Robust Reinforcement Learning

Mohammed Amin Abdullah, Hang Ren, Haitham Bou Ammar, Vladimir Milenkovic, Rui Luo...

TL;DR该研究提出了一种名为 WR2L 的强化学习算法，它通过将 Wasserstein 约束和零阶优化方法结合起来解决了传统强化学习算法在现实世界应用中容易过拟合的问题，并在高维控制任务中得到了显著提升。

Abstract

reinforcement learning algorithms, though successful, tend to over-fit to training environments hampering their application to the real-world. This paper proposes $\text{W}\text{R}^{2}\text{L}$ -- a robust reinforcement

reinforcement learning robustness wasserstein constraint optimization mujuco environments

发现论文，激发创造

带有 Wasserstein 约束的强化学习

本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC，该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题，并且在 Cart-Pole 环境中得到了验证。

Jun, 2020

Wasserstein 分布稳健随机控制：一种数据驱动的方法

研究了一个基于 Wasserstein 分布的鲁棒控制策略问题，提出了一个可计算的值迭代算法和策略迭代算法，并通过动态规划和 Kantorovich 对偶理论的分析，在保证置信水平不降低的情况下，构造了一个多阶段性能保证和最优分布鲁棒控制策略。

Dec, 2018

改进的分布式鲁棒强化学习样本复杂度界限

本文提出了一种分布式抗干扰强化学习算法，即 Robust Phased Value Learning 算法，该算法针对四种不同的差距度量指标的不确定性集合进行求解，得到的结果在样本复杂度方面比现有结果具有更好的一致性。

Mar, 2023

Wasserstein 不确定性下的马尔科夫决策过程稳健 Q 学习算法

我们提出了一种新的 $Q$-learning 算法，用于解决分配鲁棒的马尔可夫决策问题。我们证明了算法的收敛性，并提供了几个示例来说明我们算法的可处理性以及考虑分布稳健性在解决随机最优控制问题时的好处，尤其是在实践中估计的分布出现错误时。

Sep, 2022

Wasserstein 分布鲁棒优化：机器学习中的理论和应用

此论文介绍了基于 Wasserstein 分布鲁棒优化的数据驱动决策方法，能够解决样本有限、参数不确定的情况下，采用仅仅通过数据学习决策的问题，绕过测试样本不能涵盖所有情况的问题，具有良好的效果且容易计算。此方法对于分类、回归等基本学习任务有很好启示作用。

Aug, 2019

基于 Wasserstein 距离的数据驱动分布鲁棒优化：性能保证和可行重构

研究使用 Wasserstein metric 中有限训练数据集，构建球形分布空间来解决分布鲁棒优化问题，并阐述其在投资组合优化和不确定性量化等领域的实用性和性能保证。

May, 2015

方差减少的极大 - 极小优化算法实现快速分布式鲁棒学习

本文提出了一种可扩展的、可实现的随机额外梯度算法，用于解决 Wasserstein DRSL 框架下的分类问题，该算法采用方差缩减和随机重排，可达到更快的收敛速率，并在合成和真实数据上证明了其有效性。

Apr, 2021

强化学习中的分布鲁棒性和正则化

本文介绍了一种新的 Wasserstein 分布强化学习框架，并将其与正则化相联系，从而为解决强化学习中的外部不确定性问题提供一个新的实用工具。

Mar, 2020

具原则的学习方法：带有局部扰动的 Wasserstein 分布鲁棒优化

本文提出了一种基于新近估算定理的 WDRO（Wasserstein 分布鲁棒优化）最小化器，通过实现该最小化器及提供相应的风险一致性结果，发现该方法成功应用于本地扰动数据的 WDRO 推断，同时对噪声数据如图像分类数据集表现出鲁棒性优异的效果。

Jun, 2020

使用 Wasserstein 距离进行极小极大统计学习

本论文基于 Wasserstein 空间的球体不确定性集合，提出了用于统计学习的极小极大框架，并证明了涉及原始极大似然问题的覆盖数特性的一般化界限。作为一个具体的例子，我们为基于传输的域自适应问题提供了推广保证，其中源域和目标域分布之间的 Wasserstein 距离可以可靠地从未标记样本中估算。

May, 2017