领域自适应模仿学习

ICMLSep, 2019

Domain Adaptive Imitation Learning

Kuno Kim, Yihong Gu, Jiaming Song, Shengjia Zhao, Stefano Ermon

TL;DR介绍了一种领域自适应模仿学习（DAIL）问题的形式化表达，提出了一种两步方法：对齐和适应，通过无监督的 MDP 对齐算法（GAMA）执行对齐步骤并利用对应关系在不需要经过环境交互的情况下在不同领域中实现任务零次模仿。

Abstract

We study the question of how to imitate tasks across domains with discrepancies such as embodiment, viewpoint, and dynamics mismatch. Many prior works require paired, aligned demonstrations and an additional RL step that requires environment interactions. However, paired, aligned demonstrations are seldom obtainable and RL procedures are expensive. We formal

domain adaptive imitation learning mdp alignment generative adversarial mdp alignment unpaired demonstrations zero-shot imitation

发现论文，激发创造

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

跨域观测下的模仿学习

本篇研究针对专家行为与训练代理之间的差异，提出了一种基于无配对无对齐的轨迹，以及循环一致性限制的框架，来学习对应关系以解决领域差异的问题，并通过实验证明了该方法的有效性。

May, 2021

仅 DIAL: 用于无监督领域适应的域对齐层

本研究通过引入 DomaIn Alignment Layers 方法解决领域适应中的特征分布偏移问题，从而提高视觉识别系统在不同领域数据集上的成功率，并在三个公开基准测试中取得了成功的实验结果。

Feb, 2017

弥合示范学习中的动作空间不匹配

使用 Morphological Adaptation in Imitation Learning (MAIL) 框架，从 3D 带障碍物情况下，带有两个末端执行器的机器人的演示中训练出一个末端执行器的 Franka Panda 机器人的可视化控制策略，比 Learning from Demonstrations 和非 Learning from Demonstrations 基线方法提高了 27% 的成功率，并且在面对不同颜色、厚度、大小和材料等多变性的衣物的姿态（旋转和平移）时展现出很好的通用性。

Apr, 2023

DiffAIL: 扩散对抗模仿学习

引入扩散模型到对抗性模仿学习框架中，提出了一种名为扩散对抗模仿学习（DiffAIL）的方法，以改进传统二元分类器的准确性，从而能更好地捕捉专家示范并提高泛化性能。实验证明，该方法在两个基准任务上达到了最先进的性能，并显著超过了专家演示。

Dec, 2023

学习有关的内容：使用任务相关嵌入的跨域模仿学习

本研究提出了一种基于对抗训练的可扩展框架，用于实现基于跨领域演示的自主智能体学习任务的能力，通过学习映射来实现不同领域间的策略转移，解决了其他方法在许多领域方面存在的问题。

Sep, 2022

不完整演示下的对抗性模仿学习

本文提出了一种名为 AGAIL 的新算法，该算法借助不完整的演示动作序列，学习从状态到行为的映射，通过分离演示的状态和行动轨迹，并使用行动作为辅助信息来指导训练。实验结果表明，AGAIL 在基准任务上可以达到与现有最先进方法相当的性能水平。

May, 2019

通过元学习实现领域自适应对话生成

提出了基于元学习的领域自适应对话生成方法（DAML），该方法基于单域对话数据和元学习算法进行训练，并能够在新领域中学习出一种具有竞争力的对话系统。在模拟对话数据集上评估该方法的表现，实现了最先进的性能，该性能可推广到新任务。

Jun, 2019

领域自适应视觉观察的模仿学习

在这篇论文中，我们考虑了具有视觉观测的领域自适应模仿学习，其中目标领域中的一个代理通过观察源领域中的专家示范来学习执行任务。我们提出了一种新的框架，通过双重特征提取和图像重构从输入观测中提取领域无关的行为特征，以克服视觉观察中跨领域模仿学习中的领域转移问题。实证结果表明，我们的方法优于先前的具有领域转移的视觉观察模仿学习算法。

Dec, 2023

基于状态对齐的模仿学习

提出一种基于状态对齐的模仿学习方法，旨在训练模仿者尽可能地模仿专家演示中的状态序列，该方法将本地和全局的状态对齐结合到一个强化学习框架中，并通过一个规则化的策略更新目标来实现。该方法在标准模仿学习设置和专家和模仿者具有不同动力学模型的模仿学习设置中显示了其优越性。

Nov, 2019