本文探讨基于生成式对抗性模型的模仿学习算法(Generative Adversarial Imitation Learning,GAIL)的理论性质,证明了对于一般的回报参数化形式,只要正确控制奖励函数的类别,就可以保证泛化效果,并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决,并具有次线性收敛性,这是关于奖励 / 策略函数逼近的统计和计算保证的第一篇研究。
Jan, 2020
本文提出了一种基于层次化对抗性模仿学习的架构 hGAIL,该架构可以将车辆的传感器感知直接映射到低层动作,并同时学习到中层的输入表征,实现了无人驾驶车辆的自主导航。
Feb, 2023
Generative Adversarial Imitation Learning (GAIL) 使用强化学习来优化 GAN-like 判别器的奖励信号,但存在训练不稳定的问题。本文通过控制论分析 GAIL,提出一种新的控制器 'C-GAIL',能够加速收敛速度、减小振荡范围,并更好地匹配专家的分布。
Feb, 2024
本文提出了一种名为 Triple-GAIL 的新型多模 GAIL 框架,能够从专家演示和连续生成的经验中学习技能选择和模仿,引入辅助技能选择器进行数据增强,从而更好地适应展示者的多模式行为,并在现实驾驶员轨迹和实时策略游戏数据集上,表现出超越前沿性能的实验结果。
May, 2020
本文采用基于梯度的交替更新策略,分析了生成对抗学习在神经网络结构下的全局优化和收敛速率,证明了该方法的全局最优解和收敛性。
Mar, 2020
本文提出了一种基于变分自编码器的策略嵌入方法,相比传统的监督学习方法和生成对抗网络的模仿学习,该方法可以从更少的示范数据中学习到更为鲁棒的控制器,并避免了模式坍塌现象。
Jul, 2017
本文研究了在线和离线线性情况下生成对抗模仿学习,提出了乐观和悲观的生成对抗策略优化算法,并证明了算法的收敛性和误差界。
Aug, 2021
本文提出一种通过学习真实世界中的驾驶示范数据来学习神经驾驶策略的方法,并使用广义博弈对抗模型进行智能驾驶行为生成,同时介绍了解决多智能体驾驶建模中存在的问题的多智能体模型,并描述了奖赏信号修正的 reward augmented imitation learning (RAIL) 和 Burn-InfoGAIL 对潜在变化因素进行解耦的方法。在 NGSIM 实验数据集上,成功地模拟了高速公路上的驾驶行为。
Jun, 2020
本文提出一种基于预训练语言模型的文本生成生成对抗性学习框架,采用对比鉴别器和近端策略优化来稳定和改进文本生成性能,实验证明该方法在无条件和有条件文本生成任务上均优于 MLE 基线。
Apr, 2020
本文介绍了用于模仿学习的算法,其中 Generative Adversarial Imitation Learning (GAIL) 是当前的最先进算法,但是他们在一些关键领域比人类专家更容易出现失误。作者提出了一种新的 Risk-Averse Imitation Learning (RAIL) 算法以更好地解决这个问题。