DiffAIL: 扩散对抗模仿学习

AAAIDec, 2023

DiffAIL: Diffusion Adversarial Imitation Learning

Bingzheng Wang, Yan Zhang, Teng Pang, Guoqiang Wu, Yilong Yin

TL;DR引入扩散模型到对抗性模仿学习框架中，提出了一种名为扩散对抗模仿学习（DiffAIL）的方法，以改进传统二元分类器的准确性，从而能更好地捕捉专家示范并提高泛化性能。实验证明，该方法在两个基准任务上达到了最先进的性能，并显著超过了专家演示。

Abstract

imitation learning aims to solve the problem of defining reward functions in real-world decision-making tasks. The current popular approach is the Adversarial imitation learning (AIL) framework, which matches exp

imitation learning adversarial imitation learning diffusion model discriminator expert demonstrations

发现论文，激发创造

通过提升实现对抗模仿学习

通过建立加权回放缓冲区的新算法 AILBoost，该文研究了对抗性模仿学习在离策略训练中的有效性，实验证明 AILBoost 相较于 DAC 在控制器状态和像素环境中性能更佳。

Apr, 2024

不完整演示下的对抗性模仿学习

本文提出了一种名为 AGAIL 的新算法，该算法借助不完整的演示动作序列，学习从状态到行为的映射，通过分离演示的状态和行动轨迹，并使用行动作为辅助信息来指导训练。实验结果表明，AGAIL 在基准任务上可以达到与现有最先进方法相当的性能水平。

May, 2019

校准对比表示的视觉模仿学习

该研究提出了将校准对比学习应用于视觉对抗性模仿学习框架的简单有效解决方案，以从视觉状态中提取有价值的特征，在不修改架构或产生显著计算成本的情况下，可以与模仿学习框架共同优化。实验证明，该方法在 DMControl Suite 上能够以样本效率高、从多个方面超越其他方法。

Jan, 2024

政策对比模仿学习

通过 Policy Contrastive Imitation Learning (PCIL) 方法，我们解决了 Adversarial Imitation Learning (AIL) 中低质量的 AIL 鉴别器表示所带来的问题，并成功地生成了一种更具意义的对比奖励，从而在模仿学习中实现了最新的性能。

Jul, 2023

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

领域自适应模仿学习

介绍了一种领域自适应模仿学习（DAIL）问题的形式化表达，提出了一种两步方法：对齐和适应，通过无监督的 MDP 对齐算法（GAMA）执行对齐步骤并利用对应关系在不需要经过环境交互的情况下在不同领域中实现任务零次模仿。

Sep, 2019

鉴别器指导的基于模型的离线模仿学习

该论文提出了一种基于鉴别器指导的模型辅助离线仿真学习框架，该框架采用协作对抗学习策略，能够显著提高在小数据集下的性能和鲁棒性。

Jul, 2022

任务相关的对抗性模仿学习

本文探讨对抗模仿领域中鉴别器网络学习视觉特征与专家标签之间的虚假关联所造成的关键漏洞，并提出了一种新的解决方案 (TRAIL)，该方法通过优化受限的鉴别器来获得 informative rewards。在实验中，我们展示了 TRAIL 能够在没有访问任何任务奖励的情况下，通过模仿人类的操作来解决具有挑战性的机器人操纵任务，并明显优于其他基于行为克隆和传统 GAIL 的对抗模仿代理模型。

Oct, 2019

领域鲁棒性视觉仿真学习与互信息约束

介绍了一种名为 Disentangling Generative Adversarial Imitation Learning（DisentanGAIL）的新算法，可通过对抗学习来自动学习高维度任务表现观察的特征，从而成功进行模仿，同时忽略专家和代理之间的差异，此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。

Mar, 2021

对抗性模仿学习中的无标签不完美演示

本文提出了一种基于自对抗的无标签专家演示的算法，利用全面学习方法，动态地抽样专家演示，并与不断优化的策略进行比对，可以优化生成的轨迹，实现了动态的自我适应学习。

Feb, 2023