以 Wasserstein 距离为导向的对抗模仿学习，结合奖励形状探索

Jun, 2020

以 Wasserstein 距离为导向的对抗模仿学习，结合奖励形状探索

Wasserstein Distance guided Adversarial Imitation Learning with Reward Shape Exploration

Ming Zhang, Yawei Wang, Xiaoteng Ma, Li Xia, Jun Yang...

TL;DR本文提出的名为 WDAIL 的新算法，在采用 Wasserstein 距离、Proximal Policy Optimization 技术和不同的奖励函数形状等三个方面做了改进，提高了模拟学习的性能，并在 MuJoCo 的复杂连续控制任务中取得了显著性能。

Abstract

The generative adversarial imitation learning (GAIL) has provided an adversarial learning framework for imitating expert policy from demonstrations in high-dimensional continuous tasks. However, almost all GAIL and its extensions only design a kind of →

generative adversarial imitation learning reward function wasserstein distance proximal policy optimization continuous control tasks

发现论文，激发创造

强化学习中的对抗内在动机

论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用，提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。

May, 2021

原始 Wasserstein 模仿学习

本文提出了一种新的基于 Primal Wasserstein Imitation Learning（PWIL）算法的 Imitation Learning method，通过离线推导奖励函数，在 MuJoCo 领域的多个连续控制任务中实现了高效的样本复原，并且匹配的是 Wasserstein 距离，而非常用的性能代理。

Jun, 2020

生成对抗模仿学习的计算与泛化

本文探讨基于生成式对抗性模型的模仿学习算法（Generative Adversarial Imitation Learning，GAIL）的理论性质，证明了对于一般的回报参数化形式，只要正确控制奖励函数的类别，就可以保证泛化效果，并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决，并具有次线性收敛性，这是关于奖励 / 策略函数逼近的统计和计算保证的第一篇研究。

Jan, 2020

Wasserstein 对抗性模仿学习

本文研究 Imitation Learning，结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中，该方法只需一个 expert demonstration 即可实现显著提升。

Jun, 2019

基于线性函数逼近的在线离线证明有效度量对抗学习的生成式模仿学习

本文研究了在线和离线线性情况下生成对抗模仿学习，提出了乐观和悲观的生成对抗策略优化算法，并证明了算法的收敛性和误差界。

Aug, 2021

基于生成对抗网络的样本高效模仿学习

本文介绍了一种在模型 free 的前提下能够提高采样效率的演员评论家结构，利用了 GAIL 中对抗训练的方法和离策略演员评论家的优势，在多个连续控制任务中，我们证明了这种方法的简洁易行和稳定性。

Sep, 2018

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

生成敌对自模仿学习

本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法，旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹，而非直接最大化奖励，从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函数，将其与任何策略梯度目标轻松结合。实验结果显示，GASIL 改进了 2D PointMass 和 MuJoCo 环境下基于接近策略优化的性能。

Dec, 2018

生成对抗性模仿学习中的梯度爆炸探索：概率视角

通过对 DE-GAIL 和 ST-GAIL 的研究，本文从理论角度解释了 gradient explosion 在 DE-GAIL 中是不可避免的问题，并提出了使用 CREDO 策略通过限制奖励函数来解决 gradient explosion 挑战，从而使 GAIL 在训练过程中获得较高的数据效率和稳定性。

Dec, 2023

C-GAIL: 使用控制理论稳定生成对抗模仿学习

Generative Adversarial Imitation Learning (GAIL) 使用强化学习来优化 GAN-like 判别器的奖励信号，但存在训练不稳定的问题。本文通过控制论分析 GAIL，提出一种新的控制器 'C-GAIL'，能够加速收敛速度、减小振荡范围，并更好地匹配专家的分布。

Feb, 2024