外部因素感知的模仿学习

Oct, 2022

Extraneousness-Aware Imitation Learning

Ray Chen Zheng, Kaizhe Hu, Zhecheng Yuan, Boyuan Chen, Huazhe Xu

TL;DR本文提出了一种名为 EIL 的基于自监督学习的方法，通过学习第三人称包含无关任务但与环境局部一致的演示来学习视动作策略，实验结果表明，EIL 方法在仿真和实际机器人控制任务中均胜过强基线，并获得与理论最佳演示训练的策略相当的效果。

Abstract

visual imitation learning provides an effective framework to learn skills from demonstrations. However, the quality of the provided demonstrations usually significantly affects the ability of an agent to acquire desired skills. Therefore, the standard →

visual imitation learning noisy demonstrations extraneous segments self-supervised visuomotor policies

发现论文，激发创造

InfoGAIL：来自视觉示范的可解释性模仿学习

本文提出了一种基于对抗生成模型的模仿学习算法，能够通过无监督学习方法推断出专家示范中隐藏的潜在结构，并可以学习到复杂行为数据可解释且有意义的表示方式，包括图像示范。在驾驶领域中，我们展示了通过人类示范学习的模型能够准确地复现多种行为并能使用原始视觉输入准确地预测人类的行为。相比于其他基线算法，我们的方法能更好地捕捉隐藏在专家示范中的潜在结构，并经常回收到语义上有意义的数据变量。

Mar, 2017

从次优演示中进行模仿学习的技能解耦

本文提出了一种可以从小的干净数据集和大的嘈杂数据集中学习到子最优示范的深度递归网络，通过技能探索和调整，以及相互信息正则化促进技能空间中的解缠缩。

Jun, 2023

表示学习在视觉模仿中的惊人有效性

提出了一种解耦表示学习与行为学习的视觉模仿学习方法，使用标准的监督和自监督学习方法来学习视觉表示编码器，然后使用非参数局部加权回归来预测行为。实验结果表明，这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。

Dec, 2021

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

自我激励模仿学习：噪声演示的优化

自我激励仿真学习 (SMILE) 是一种逐步过滤出被当前策略认为低劣的策略收集的演示的方法，利用扩散模型的正向和逆向过程模拟从低到高和从高到低的演示专业知识的转变，并利用噪声信息预测当前策略和演示者之间的扩散步骤，进一步详细说明了如何自我激励地应用预测的扩散步骤来过滤嘈杂的演示，并提供了其理论基础。通过对 MuJoCo 任务的实证评估，我们证明了我们的方法能够在嘈杂的演示环境中学习到专家策略，并有效地过滤掉低于当前策略的演示。

Oct, 2023

未观测到混杂因素的因果模仿学习

研究表明在模仿学习中，学者提出了一个非参数图形标准来确定模仿的可行性，并建立了一个有效的程序来从专家轨迹中学习模仿策略。

Aug, 2022

使用潜在信息进行视觉观察的对抗性模仿学习

基于视觉观测的模仿学习的研究，在部分可观察环境中，引入了基于状态潜在转换分布的上界来分析学习代理的次优性，并提出了一种名为潜在对抗性观测模仿学的算法，在高维连续机器人任务中表现出与最先进的性能，同时提供显著的计算优势，并可以利用专家视频来提高从像素进行强化学习的效率。

Sep, 2023

通过上下文翻译从原始视频中学习模仿行为

本研究提出了一种基于视频预测、上下文转换和深度强化学习的 “观察型模仿学习” 方法，该方法消除了标准模仿学习对于完全相同环境的假设，并能够从一个演示者的视频中学习各种现实世界中的机器人技能，涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。

Jul, 2017

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

示范对比学习

该论文提出了一个从多个视角捕捉的无标注视频演示中学习视觉表示的框架，优化了最近提出的自监督学习算法，应用对比学习来增强与任务相关的信息和抑制特征嵌入中的无关信息，验证了所提出的方法在模拟几种机器人任务，包括 pick and place 任务中的应用，评估了学习表示的三个指标：视点对齐，阶段分类和强化学习，在所有情况下，结果都表明与现有方法相比，该方法水平更高，而且训练轮数更少。

Jan, 2022