通过 Wasserstein 域混淆进行强化学习的视觉迁移

Jun, 2020

通过 Wasserstein 域混淆进行强化学习的视觉迁移

Visual Transfer for Reinforcement Learning via Wasserstein Domain Confusion

Josh Roy, George Konidaris

TL;DR提出一种新的在强化学习中用于视觉迁移的算法 WAPPO，其通过学习对齐源任务和目标任务中提取特征的分布，通过 Wasserstein 混淆目标来近似和最小化源域和目标域的特征分布之间的 Wasserstein-1 距离，并在 Visual Cartpole 和 16 个 OpenAI Procgen 环境中成功地传输了策略，优于之前的视觉传输算法。

Abstract

We introduce wasserstein adversarial proximal policy optimization (WAPPO), a novel algorithm for visual transfer in reinforcement learning

wasserstein adversarial proximal policy optimization visual transfer reinforcement learning wasserstein-1 distance procgen environments

发现论文，激发创造

强化学习中的对抗内在动机

论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。

May, 2021

深度强化学习中的稳健策略优化对抗风格转移

该论文提出了一种算法，旨在通过消除对混淆特征的过度拟合来提高强化学习代理的泛化能力。我们的方法包括一个最大最小博弈论的目标，其中一个生成器在强化学习过程中传递观察的风格。生成器的额外目标是扰动观察，从而最大化代理采取不同行动的概率，而策略网络通过更新参数来最小化这种扰动的影响，同时最大化预期的未来奖励，从而保持稳健性。基于这一设置，我们提出了一种实用的深度强化学习算法 ARPO（对抗鲁棒策略优化），以找到一个能够适应未知环境的鲁棒策略。我们在 Procgen 和 Distracting Control Suite 上评估了我们的方法的泛化能力和样本效率。实验证明，与一些基线算法（包括数据增强）相比，ARPO 展现出了更好的性能。

Aug, 2023

带有 Wasserstein 约束的强化学习

本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC，该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题，并且在 Cart-Pole 环境中得到了验证。

Jun, 2020

以 Wasserstein 距离为导向的对抗模仿学习，结合奖励形状探索

本文提出的名为 WDAIL 的新算法，在采用 Wasserstein 距离、Proximal Policy Optimization 技术和不同的奖励函数形状等三个方面做了改进，提高了模拟学习的性能，并在 MuJoCo 的复杂连续控制任务中取得了显著性能。

Jun, 2020

指导策略优化的行为评分学习

通过使用 Wasserstein 距离在新定义的潜在行为空间中比较强化学习策略，我们引入了一种新方法，展示了通过使用 Wasserstein 距离的二元制定，可以学习策略行为的得分函数，用于引导 / 远离所需 / 不需要的行为，并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。

Jun, 2019

基于 Sliced Wasserstein 距离的无监督域自适应

本文提出了一种基于任务特定决策边界和 Wasserstein 度量的领域自适应的特征分布对齐方法，即切片 Wasserstein 差异。实验表明该方法在数字和标志识别、图像分类、语义分割和目标检测上都具有有效性和普适性。

Mar, 2019

在线少样本策略迁移原型对齐

研究了强化学习领域的领域自适应问题，提出了一种基于功能相似性的在线原型对齐框架 (OPA)，该框架能够在少数几周期内实现策略转移，即使从目标域获得的样本数量很少，也能表现出更好的转移性能。

Jun, 2023

基于 Wasserstein 距离的领域自适应表示学习

本文提出了一种新的方法 ——Wasserstein Distance Guided Representation Learning (WDGRL)，其利用神经网络来估计源域和目标域之间的 Wasserstein 距离，并以对抗的方式来优化特征提取器网络，以最小化估计的 Wasserstein 距离，该方法在情感和图像分类自适应数据集上的实证研究表明其优于现有的领域不变表示学习方法。

Jul, 2017

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

使用 Wasserstein 距离正则化的强化学习，应用于多策略学习

该研究描述了 Wasserstein 距离应用于强化学习中的情形，通过量化不同策略的分布之间的差异，使用 Wasserstein 正则化器学习多个不同的策略。

Feb, 2018