RAIL：风险厌恶模仿学习

NIPSJul, 2017

RAIL: Risk-Averse Imitation Learning

Anirban Santara, Abhishek Naik, Balaraman Ravindran, Dipankar Das, Dheevatsa Mudigere...

TL;DR本文介绍了用于模仿学习的算法，其中 Generative Adversarial Imitation Learning (GAIL) 是当前的最先进算法，但是他们在一些关键领域比人类专家更容易出现失误。作者提出了一种新的 Risk-Averse Imitation Learning (RAIL) 算法以更好地解决这个问题。

Abstract

imitation learning algorithms learn viable policies by imitating an expert's behavior when reward signals are not available. Generative Adversarial Imitation Learning (GAIL) is a state-of-the-art algorithm for learning policies when the expert's behavior is available as a fixed set of

imitation learning algorithms generative adversarial imitation learning conditional-value-at-risk risk-averse imitation learning trajectories

发现论文，激发创造

生成对抗模仿学习的计算与泛化

本文探讨基于生成式对抗性模型的模仿学习算法（Generative Adversarial Imitation Learning，GAIL）的理论性质，证明了对于一般的回报参数化形式，只要正确控制奖励函数的类别，就可以保证泛化效果，并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决，并具有次线性收敛性，这是关于奖励 / 策略函数逼近的统计和计算保证的第一篇研究。

Jan, 2020

通过生成式对抗模仿学习建模人类驾驶行为

本文提出一种通过学习真实世界中的驾驶示范数据来学习神经驾驶策略的方法，并使用广义博弈对抗模型进行智能驾驶行为生成，同时介绍了解决多智能体驾驶建模中存在的问题的多智能体模型，并描述了奖赏信号修正的 reward augmented imitation learning (RAIL) 和 Burn-InfoGAIL 对潜在变化因素进行解耦的方法。在 NGSIM 实验数据集上，成功地模拟了高速公路上的驾驶行为。

Jun, 2020

C-GAIL: 使用控制理论稳定生成对抗模仿学习

Generative Adversarial Imitation Learning (GAIL) 使用强化学习来优化 GAN-like 判别器的奖励信号，但存在训练不稳定的问题。本文通过控制论分析 GAIL，提出一种新的控制器 'C-GAIL'，能够加速收敛速度、减小振荡范围，并更好地匹配专家的分布。

Feb, 2024

基于生成对抗网络的样本高效模仿学习

本文介绍了一种在模型 free 的前提下能够提高采样效率的演员评论家结构，利用了 GAIL 中对抗训练的方法和离策略演员评论家的优势，在多个连续控制任务中，我们证明了这种方法的简洁易行和稳定性。

Sep, 2018

基于中层输入生成的层次化生成对抗学习在城市环境自动驾驶中的应用

本文提出了一种基于层次化对抗性模仿学习的架构 hGAIL，该架构可以将车辆的传感器感知直接映射到低层动作，并同时学习到中层的输入表征，实现了无人驾驶车辆的自主导航。

Feb, 2023

驾驶模拟的多智能体模仿学习

通过模拟驾驶场景来验证自主车辆的安全性，GAIL 可学习到具有代表性的人类驾驶模型，但在多主体驾驶情境中存在困难，我们通过基于课程学习的参数共享方法扩展 GAIL 以解决这些缺点，PS-GAIL 方法生成的策略在多主体设置下表现优异且能够捕捉人类驾驶员的紧急行为。

Mar, 2018

生成对抗性模仿学习中的梯度爆炸探索：概率视角

通过对 DE-GAIL 和 ST-GAIL 的研究，本文从理论角度解释了 gradient explosion 在 DE-GAIL 中是不可避免的问题，并提出了使用 CREDO 策略通过限制奖励函数来解决 gradient explosion 挑战，从而使 GAIL 在训练过程中获得较高的数据效率和稳定性。

Dec, 2023

多样行为的鲁棒性模仿

本文提出了一种基于变分自编码器的策略嵌入方法，相比传统的监督学习方法和生成对抗网络的模仿学习，该方法可以从更少的示范数据中学习到更为鲁棒的控制器，并避免了模式坍塌现象。

Jul, 2017

不完整演示下的对抗性模仿学习

本文提出了一种名为 AGAIL 的新算法，该算法借助不完整的演示动作序列，学习从状态到行为的映射，通过分离演示的状态和行动轨迹，并使用行动作为辅助信息来指导训练。实验结果表明，AGAIL 在基准任务上可以达到与现有最先进方法相当的性能水平。

May, 2019

基于线性函数逼近的在线离线证明有效度量对抗学习的生成式模仿学习

本文研究了在线和离线线性情况下生成对抗模仿学习，提出了乐观和悲观的生成对抗策略优化算法，并证明了算法的收敛性和误差界。

Aug, 2021