基于生成对抗网络的样本高效模仿学习
提出了一种提取专家行为策略的新框架,直接从数据中提取策略,将模仿学习与生成对抗网络进行比拟,提出了无模型模仿学习算法,并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。
Jun, 2016
使用新算法“Discriminator-Actor-Critic”,提出解决基于Adversarial Imitation Learning框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略-环境交互采样复杂度,并且由于我们的奖励函数是设计为无偏差的,因此可以在许多问题上应用而不进行任何任务特定的调整。
Sep, 2018
本文探讨基于生成式对抗性模型的模仿学习算法(Generative Adversarial Imitation Learning,GAIL)的理论性质,证明了对于一般的回报参数化形式,只要正确控制奖励函数的类别,就可以保证泛化效果,并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决,并具有次线性收敛性,这是关于奖励/策略函数逼近的统计和计算保证的第一篇研究。
Jan, 2020
本文提出了一种无需使用对抗训练或最大最小优化的离线策略样本高效方法D2-Imitation,利用TD学习和确定性策略简化了学习过程,经实验验证在许多控制任务中比对抗性模仿的离线策略扩展方法更加高效。
Dec, 2021
提出了EfficientImitate这一基于规划的模仿学习方法,成功地将两类看似不兼容的模仿算法:行为克隆和对抗模仿学习,自然地统一到了一个框架中,实现了在性能和样本效率方面的高水平。
Oct, 2022
本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法MB-TAIL,它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法OAL的交互复杂度。此外,我们通过将其扩展到函数逼近设置来展示MB-TAIL的泛化能力,并证明它可以实现独立于状态空间大小的专家样本和交互复杂度。
Jun, 2023
通过对DE-GAIL和ST-GAIL的研究,本文从理论角度解释了gradient explosion在DE-GAIL中是不可避免的问题,并提出了使用CREDO策略通过限制奖励函数来解决gradient explosion挑战,从而使GAIL在训练过程中获得较高的数据效率和稳定性。
Dec, 2023
Generative Adversarial Imitation Learning (GAIL)使用强化学习来优化GAN-like判别器的奖励信号,但存在训练不稳定的问题。本文通过控制论分析GAIL,提出一种新的控制器'C-GAIL',能够加速收敛速度、减小振荡范围,并更好地匹配专家的分布。
Feb, 2024