强化学习中的对抗内在动机

May, 2021

Adversarial Intrinsic Motivation for Reinforcement Learning

Ishan Durugkar, Mauricio Tec, Scott Niekum, Peter Stone

TL;DR论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。

Abstract

Learning with an objective to minimize the mismatch with a reference distribution has been shown to be useful for generative modeling and imitation learning. In this paper, we investigate whether one such objective, the wasserstein-1 distance between a policy's state visitation distrib

wasserstein-1 distance reinforcement learning goal-conditioned learning adversarial intrinsic motivation hindsight experience replay

发现论文，激发创造

最大化 Wasserstein 距离的内在控制

本文提出了一种通过最大化状态访问的 Wasserstein 距离学习最大化技能的代理奖励的方法，这种方法比基于多样性的目标导向策略在 MDP 中的覆盖范围更广，并在各种 Atari 环境中验证了结果。

Oct, 2021

以 Wasserstein 距离为导向的对抗模仿学习，结合奖励形状探索

本文提出的名为 WDAIL 的新算法，在采用 Wasserstein 距离、Proximal Policy Optimization 技术和不同的奖励函数形状等三个方面做了改进，提高了模拟学习的性能，并在 MuJoCo 的复杂连续控制任务中取得了显著性能。

Jun, 2020

Wasserstein 对抗性模仿学习

本文研究 Imitation Learning，结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中，该方法只需一个 expert demonstration 即可实现显著提升。

Jun, 2019

原始 Wasserstein 模仿学习

本文提出了一种新的基于 Primal Wasserstein Imitation Learning（PWIL）算法的 Imitation Learning method，通过离线推导奖励函数，在 MuJoCo 领域的多个连续控制任务中实现了高效的样本复原，并且匹配的是 Wasserstein 距离，而非常用的性能代理。

Jun, 2020

带有 Wasserstein 约束的强化学习

本文提出了一种使用 Wasserstein 距离测量参考转换核扰动的 Robust Reinforcement Learning 算法 -WRAAC，该算法解决了当前学习算法中对于系统动态的鲁棒性不够精确的问题，并且在 Cart-Pole 环境中得到了验证。

Jun, 2020

使用 Wasserstein 距离正则化的强化学习，应用于多策略学习

该研究描述了 Wasserstein 距离应用于强化学习中的情形，通过量化不同策略的分布之间的差异，使用 Wasserstein 正则化器学习多个不同的策略。

Feb, 2018

指导策略优化的行为评分学习

通过使用 Wasserstein 距离在新定义的潜在行为空间中比较强化学习策略，我们引入了一种新方法，展示了通过使用 Wasserstein 距离的二元制定，可以学习策略行为的得分函数，用于引导 / 远离所需 / 不需要的行为，并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。

Jun, 2019

用于表示学习的 Wasserstein 依赖度量

本研究旨在使用 Lipschitz 约束技术构建理论上有效但实践上可行的 Wasserstein 依赖性度量，以提供更全面的表征学习结果并改善视频理解和强化学习等任务的结果。

Mar, 2019

使用内禀动机学习目标条件策略的深度强化学习

本文提出了一种新的无监督学习方法，名为具有内在动机的目标导向策略（GPIM）。通过将抽象级别的策略与目标条件策略联合学习，本方法在各种机器人任务中证明了其有效性和高效性，大大优于先前的技术。

Apr, 2021

基于模型的强化学习中 Wasserstein 和价值感知损失的等效性

在模型基于的强化学习中，学习一个生成模型是至关重要的，然而使用近似设置下的有用模型学习是具有挑战性的。最近，Farahmand 等人提出了基于价值感知的模型学习（VAML）目标，该目标在模型学习过程中捕获了价值函数的结构，而使用 Asadi 等人的工具，我们发现最小化 VAML 目标实际上等价于最小化 Wasserstein 度量标准。这种等价关系提高了我们对基于价值感知模型的理解，并且为模型基于的强化学习中的 Wasserstein 应用奠定了理论基础。

Jun, 2018