本研究提出了基于行为克隆的观察学习技术,旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务,并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。
May, 2018
利用行为克隆将策略学习简化为监督学习,但忽略因果关系可能导致因果误识问题,可通过相应的干预(环境交互或专家查询)确定正确的因果模型来解决。研究表明,该问题在多个领域中都存在,例如控制问题和驾驶问题,并经过了与 DAgger 等基线和消融进行验证。
May, 2019
本文介绍了行为克隆(BC)的关键缺陷,由于 BC 是以最大似然为目标函数,因此在以高斯函数表示学习代理的策略时,BC 对状态条件专家动作分布求取均值导致了问题。 为了解决这个问题,我们引入了 ABC 方法,它包含 GAN 训练的元素,具有寻找众数的性质,并在玩具领域和 DeepMind 控制套件上的 Hopper 域上进行评估,并表明它胜过标准的 BC。
Nov, 2022
本文提出了一种结合了扩散模型和行为克隆的方法来提高模仿学习的性能,此方法在各种连续控制任务上的性能优于基准方法或者达到了相当竞争的水平。
Feb, 2023
本研究提出了一种基于自监督表示学习的对抗性模仿学习方法,用于学习具有抗扭曲性和时间预测性的状态和动作表示,以提高样本效率,并在 MuJoCo 的 100 个专家状态 - 动作对设置中相对于现有方法表现出 39%的改进。
Mar, 2023
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021
本文提出了在部分观测到的情况下,对于专家动作序列上的重复利用问题的对抗性解决方案,以提高在多个部分观测的模仿学习任务中的性能。
Oct, 2020
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022