带有 Wasserstein 约束的强化学习

Jun, 2020

Robust Reinforcement Learning with Wasserstein Constraint

Linfang Hou, Liang Pang, Xin Hong, Yanyan Lan, Zhiming Ma...

TL;DR本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC，该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题，并且在 Cart-Pole 环境中得到了验证。

Abstract

robust reinforcement learning aims to find the optimal policy with some extent of robustness to environmental dynamics. Existing learning algorithms usually enable the robustness through disturbing the current st

robust reinforcement learning wasserstein distance optimal policy risk-aware problem learning algorithm

发现论文，激发创造

Wasserstein 鲁棒性强化学习

该研究提出了一种名为 WR2L 的强化学习算法，它通过将 Wasserstein 约束和零阶优化方法结合起来解决了传统强化学习算法在现实世界应用中容易过拟合的问题，并在高维控制任务中得到了显著提升。

Jul, 2019

基于 Wasserstein 分配鲁棒性的上下文强化学习策略评估与学习

提出了一种利用 Wasserstein 距离的分布鲁棒优化方法，用于解决环境不匹配的问题，并提供了理论分析和实证验证。

Sep, 2023

Wasserstein 分布稳健随机控制：一种数据驱动的方法

研究了一个基于 Wasserstein 分布的鲁棒控制策略问题，提出了一个可计算的值迭代算法和策略迭代算法，并通过动态规划和 Kantorovich 对偶理论的分析，在保证置信水平不降低的情况下，构造了一个多阶段性能保证和最优分布鲁棒控制策略。

Dec, 2018

基于 Wasserstein 距离的分布鲁棒策略学习

研究了采用分布鲁棒优化方法（distributionally robust optimization，DRO）来推断个性化治疗规则（individualized treatment rules，ITRs）的估计器在新设置中的应用，包括 Wasserstein distance-based ambiguity characterizations 和其在目标人群中的理论表现的评估。这个方法在目标人群中优于传统的策略。

May, 2022

Wasserstein 不确定性下的马尔科夫决策过程稳健 Q 学习算法

我们提出了一种新的 $Q$-learning 算法，用于解决分配鲁棒的马尔可夫决策问题。我们证明了算法的收敛性，并提供了几个示例来说明我们算法的可处理性以及考虑分布稳健性在解决随机最优控制问题时的好处，尤其是在实践中估计的分布出现错误时。

Sep, 2022

使用 Wasserstein 距离的分布鲁棒方法实现遗憾最优控制

本文提出了一种基于分布鲁棒性的方法来控制线性离散动态系统，在随机加性干扰作用下具有二次成本。假设干扰过程的基础概率分布为未知的，但被认为位于给定的分布半径球中，用 Wasserstein 距离求得。在此框架中，设计了严格因果线性干扰反馈控制器来最小化最坏情况下期望遗憾。通过对最优运输问题的对偶理论建立，可将此遗憾最小化控制问题重新等价为一个可行的半定编程问题。该等效对偶公式还允许我们确定中心分布与最坏情况下分布之间的最坏情况下期望遗憾。

Apr, 2023

使用 Wasserstein 距离正则化的强化学习，应用于多策略学习

该研究描述了 Wasserstein 距离应用于强化学习中的情形，通过量化不同策略的分布之间的差异，使用 Wasserstein 正则化器学习多个不同的策略。

Feb, 2018

Wasserstein Actor-Critic：基于乐观主义的连续动作控制导向探索

本文提出基于 Wasserstein Q-Learning 的 Wasserstein Actor-Critic (WAC) 体系结构，通过使用近似的 Q 后验表示表示先验不确定性，并使用 Wasserstein barycenters 在状态动作空间中传播不确定性。最终，在标准 MujoCo 任务以及一系列需要探索的连续动作领域中评估我们的算法和基线。

Mar, 2023

Wasserstein 分布鲁棒优化：机器学习中的理论和应用

此论文介绍了基于 Wasserstein 分布鲁棒优化的数据驱动决策方法，能够解决样本有限、参数不确定的情况下，采用仅仅通过数据学习决策的问题，绕过测试样本不能涵盖所有情况的问题，具有良好的效果且容易计算。此方法对于分类、回归等基本学习任务有很好启示作用。

Aug, 2019

强化学习中的对抗内在动机

论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。

May, 2021