通过预测观察来模仿

ICMLJul, 2021

Imitation by Predicting Observations

Andrew Jaegle, Yury Sulsky, Arun Ahuja, Jake Bruce, Rob Fergus...

TL;DR本文基于未来观察奖励模型，提出了一种新的依靠观察数据进行模仿学习的方法，可以在连续控制任务中表现出与人类专家相当的性能，同时在存在与任务无关的观察数据时表现出鲁棒性。

Abstract

imitation learning enables agents to reuse and adapt the hard-won expertise of others, offering a solution to several key challenges in learning behavior. Although it is easy to observe →

imitation learning behavior observation reward model continuous control tasks

发现论文，激发创造

基于观察的模仿学习与自动折扣调度

通过自动折扣调度的机制适应性地改变强化学习的折扣系数，我们提出了一种新颖的观察学习框架，使得代理能够在掌握较早行为之后再逐步转向后续行为，并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。

Oct, 2023

从观测中学习模仿最新进展

本文为观察式模仿学习提供了文献综述，并指出了一些开放性研究问题和未来可行性工作。

May, 2019

基于引导对比学习的观察模仿

本文提出了基于视觉演示的学习控制策略的一种 IfO 算法，名为 BootIfOL，该算法旨在学习一种从智能体轨迹到目标轨迹的距离度量方式，通过对比学习训练出智能体控制策略，实验结果表明该算法可以在有限的演示轨迹上训练出有效的策略。

Feb, 2023

通过上下文翻译从原始视频中学习模仿行为

本研究提出了一种基于视频预测、上下文转换和深度强化学习的 “观察型模仿学习” 方法，该方法消除了标准模仿学习对于完全相同环境的假设，并能够从一个演示者的视频中学习各种现实世界中的机器人技能，涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。

Jul, 2017

第三人称模仿学习

本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法，证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。

Mar, 2017

基于观测的离策略模仿学习

本文提出了一个基于观察学习的学习方法，包括分布匹配、离线策略学习和倒置动作模型，能够在性能和样本效率上与最先进的方法相媲美。

Feb, 2021

基于观察数据的生成对抗模仿

本文提出了一种基于生成对抗网络的从观察中模仿学习方法（GAIfO），它可以在没有行动信息的情况下直接从状态演示中学习，进行了两种不同设置的实验证明它在高维模拟环境中优于现有的直接从状态演示方法。

Jul, 2018

从观察中进行行为复制

本研究提出了基于行为克隆的观察学习技术，旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务，并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。

May, 2018

通过隐式模仿加速强化学习

本文提出和研究了一种隐含模仿的形式模型，通过观察导师，强化学习代理可以提取关于其自身能力和状态空间中未访问部分的相对价值的信息，并阐述了隐含模仿的好处，通过指导单个和多个导师来证明性能和收敛性有所提高。

Jun, 2011

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023