生成对抗模仿学习
在模仿学习中,我们使用基于样本的方法开发了一种基于策略梯度的算法,即通过学习专家的样本轨迹,找到至少与专家策略一样好的参数化随机策略;该算法可以应用于高维度环境,并保证收敛到局部最小值。
May, 2016
该文介绍了 Model based Adversarial Imitation Learning (MAIL)算法,为对抗性模仿学习问题提供了一种基于模型的方法,使用前向模型使该系统完全可微分,以训练出优秀的策略。在MuJoCo物理模拟器上测试后,该方法的初始结果超过了当前的最优状态。
Dec, 2016
本文介绍了一种以对手生成网络为基础的新方法,以同时恢复反演强化学习中的奖励和策略选项,用于解决从专家演示中学习复杂任务的奖励函数。该方法在简单和复杂的连续控制任务中表现良好,展示了一次转移学习中的显著性能提高。
Sep, 2017
本文提出了一种基于生成对抗网络的从观察中模仿学习方法(GAIfO),它可以在没有行动信息的情况下直接从状态演示中学习,进行了两种不同设置的实验证明它在高维模拟环境中优于现有的直接从状态演示方法。
Jul, 2018
本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架,它建立在广义反向强化学习的基础上,并引入了实用的多智能体演员-评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。
Jul, 2018
本文介绍了一种在模型free的前提下能够提高采样效率的演员评论家结构,利用了GAIL中对抗训练的方法和离策略演员评论家的优势,在多个连续控制任务中,我们证明了这种方法的简洁易行和稳定性。
Sep, 2018
使用新算法“Discriminator-Actor-Critic”,提出解决基于Adversarial Imitation Learning框架的两个问题:隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略-环境交互采样复杂度,并且由于我们的奖励函数是设计为无偏差的,因此可以在许多问题上应用而不进行任何任务特定的调整。
Sep, 2018
通过生成敌对网络框架,提出一种以权力为基础的正则化最大熵逆向强化学习来学习接近最优的奖励和策略,同时学习变分信息最大化下的权力,并在各种高维复杂控制任务和具有挑战性的转移学习问题上进行了评估,证明了该方法不仅匹配专家行为而且比最先进的逆向强化学习算法表现显著优异。
Sep, 2018
为了更好地控制自然动作,本文提出了一种深度学习方法,通过直接模仿原始视频演示来获得控制策略,并且使用生成对抗网络依据低维度特征代替手工奖励估计步骤,同时展示了该方法可以产生类似于专家演示视频的学习性能。
Oct, 2018
本文提出一种新的模仿学习框架,通过估计专家策略的支持来计算固定的奖励函数,将模仿学习重新定位到标准的强化学习设置中,证明了该奖励函数在离散和连续域上的有效性,并在不同的强化学习算法下实现了与现有技术相当或更好的表现。
May, 2019