对抗性意图感知分层模仿学习
该文介绍了 Model based Adversarial Imitation Learning (MAIL)算法,为对抗性模仿学习问题提供了一种基于模型的方法,使用前向模型使该系统完全可微分,以训练出优秀的策略。在MuJoCo物理模拟器上测试后,该方法的初始结果超过了当前的最优状态。
Dec, 2016
本文介绍了一种在模型free的前提下能够提高采样效率的演员评论家结构,利用了GAIL中对抗训练的方法和离策略演员评论家的优势,在多个连续控制任务中,我们证明了这种方法的简洁易行和稳定性。
Sep, 2018
本研究提出一种新的算法,它可以使用生成对抗性模仿学习框架,通过图模型来学习未分割演示中的子任务策略,并通过优化图模型中子任务潜在变量和其生成的轨迹之间的有向信息流来提高性能,同时将该方法与现有的层次策略学习框架Options连接起来。
Sep, 2018
本文探讨基于生成式对抗性模型的模仿学习算法(Generative Adversarial Imitation Learning,GAIL)的理论性质,证明了对于一般的回报参数化形式,只要正确控制奖励函数的类别,就可以保证泛化效果,并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决,并具有次线性收敛性,这是关于奖励/策略函数逼近的统计和计算保证的第一篇研究。
Jan, 2020
本文提出了一种名为Triple-GAIL的新型多模GAIL框架,能够从专家演示和连续生成的经验中学习技能选择和模仿,引入辅助技能选择器进行数据增强,从而更好地适应展示者的多模式行为,并在现实驾驶员轨迹和实时策略游戏数据集上,表现出超越前沿性能的实验结果。
May, 2020
本文利用潜在变量模型将层次化模仿学习问题转化为参数推断,理论上表征了Daniel等人(2016)提出的EM方法。研究了种群水平算法作为中间步骤的性能保证,证明了该算法在一定的正则条件下以高概率收敛于真实参数周围的范数球上。据我们所知,这是第一个仅观察原始状态-动作对的层次化模仿学习算法的性能保证。
Oct, 2020
提出了一种多任务分层对抗逆强化学习方法(MH-AIRL),用于训练具有分层结构的多任务策略,以提高复合任务的表现,增强对复杂、长周期任务的训练效率,降低数据需求以及提高对专家演示的利用效率。实验证明,与现有算法相比,MH-AIRL表现更优。
Oct, 2022
本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法MB-TAIL,它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法OAL的交互复杂度。此外,我们通过将其扩展到函数逼近设置来展示MB-TAIL的泛化能力,并证明它可以实现独立于状态空间大小的专家样本和交互复杂度。
Jun, 2023
通过对DE-GAIL和ST-GAIL的研究,本文从理论角度解释了gradient explosion在DE-GAIL中是不可避免的问题,并提出了使用CREDO策略通过限制奖励函数来解决gradient explosion挑战,从而使GAIL在训练过程中获得较高的数据效率和稳定性。
Dec, 2023