以 Wasserstein 距离为导向的对抗模仿学习,结合奖励形状探索
论文研究了使用 Wasserstein-1 距离优化策略在强化学习特别是目标导向学习中的应用,提出了一种基于 Adversarial Intrinsic Motivation 的算法并应用于 Hindsight Experience Replay 以加速学习。
May, 2021
本文提出了一种新的基于 Primal Wasserstein Imitation Learning(PWIL)算法的 Imitation Learning method,通过离线推导奖励函数,在 MuJoCo 领域的多个连续控制任务中实现了高效的样本复原,并且匹配的是 Wasserstein 距离,而非常用的性能代理。
Jun, 2020
本文探讨基于生成式对抗性模型的模仿学习算法(Generative Adversarial Imitation Learning,GAIL)的理论性质,证明了对于一般的回报参数化形式,只要正确控制奖励函数的类别,就可以保证泛化效果,并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决,并具有次线性收敛性,这是关于奖励 / 策略函数逼近的统计和计算保证的第一篇研究。
Jan, 2020
本文研究 Imitation Learning,结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中,该方法只需一个 expert demonstration 即可实现显著提升。
Jun, 2019
本文介绍了一种在模型 free 的前提下能够提高采样效率的演员评论家结构,利用了 GAIL 中对抗训练的方法和离策略演员评论家的优势,在多个连续控制任务中,我们证明了这种方法的简洁易行和稳定性。
Sep, 2018
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021
本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法,旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹,而非直接最大化奖励,从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函数,将其与任何策略梯度目标轻松结合。实验结果显示,GASIL 改进了 2D PointMass 和 MuJoCo 环境下基于接近策略优化的性能。
Dec, 2018
通过对 DE-GAIL 和 ST-GAIL 的研究,本文从理论角度解释了 gradient explosion 在 DE-GAIL 中是不可避免的问题,并提出了使用 CREDO 策略通过限制奖励函数来解决 gradient explosion 挑战,从而使 GAIL 在训练过程中获得较高的数据效率和稳定性。
Dec, 2023
Generative Adversarial Imitation Learning (GAIL) 使用强化学习来优化 GAN-like 判别器的奖励信号,但存在训练不稳定的问题。本文通过控制论分析 GAIL,提出一种新的控制器 'C-GAIL',能够加速收敛速度、减小振荡范围,并更好地匹配专家的分布。
Feb, 2024