对抗模仿学习中防止假反例

AAAIFeb, 2020

Combating False Negatives in Adversarial Imitation Learning

Konrad Zolna, Chitwan Saharia, Leonard Boussioux, David Yu-Tung Hui, Maxime Chevalier-Boisvert...

TL;DR通过对 Adversarial Imitation Learning 的训练信号做出调整，可以通过减少 False Negatives 的数量，从而在 BabyAI 环境中提高模型的样本效率。

Abstract

In adversarial imitation learning, a discriminator is trained to differentiate agent episodes from expert demonstrations representing the desired behavior. However, as the trained policy learns to be more success

adversarial imitation learning discriminator false negatives babyai environment sample efficiency

发现论文，激发创造

对抗性模仿学习中的无标签不完美演示

本文提出了一种基于自对抗的无标签专家演示的算法，利用全面学习方法，动态地抽样专家演示，并与不断优化的策略进行比对，可以优化生成的轨迹，实现了动态的自我适应学习。

Feb, 2023

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

任务相关的对抗性模仿学习

本文探讨对抗模仿领域中鉴别器网络学习视觉特征与专家标签之间的虚假关联所造成的关键漏洞，并提出了一种新的解决方案 (TRAIL)，该方法通过优化受限的鉴别器来获得 informative rewards。在实验中，我们展示了 TRAIL 能够在没有访问任何任务奖励的情况下，通过模仿人类的操作来解决具有挑战性的机器人操纵任务，并明显优于其他基于行为克隆和传统 GAIL 的对抗模仿代理模型。

Oct, 2019

鉴别器 - 演员 - 评论家：解决对抗性模仿学习中样本低效和奖励倾向的问题

使用新算法 “Discriminator-Actor-Critic”，提出解决基于 Adversarial Imitation Learning 框架的两个问题：隐式偏差和与环境产生大量交互所需的复杂性。该算法使用离线策略强化学习来降低策略 - 环境交互采样复杂度，并且由于我们的奖励函数是设计为无偏差的，因此可以在许多问题上应用而不进行任何任务特定的调整。

Sep, 2018

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

自监督对抗模仿学习

本文提出一个包含鉴别器的行为克隆学习方法，用于解决之前的学习策略容易被困入错误局部最小值的问题，避免了人工干预的需要，利用鉴别器计算得到过渡函数从而帮助学习。

Apr, 2023

对比学习的增量式虚假负例检测

本研究提出了一个新的自监督对比学习框架，该框架在训练过程中动态检测错误负样本并加以删除，在多个基准测试中表现优于其他自监督对比学习方法。

Jun, 2021

DiffAIL: 扩散对抗模仿学习

引入扩散模型到对抗性模仿学习框架中，提出了一种名为扩散对抗模仿学习（DiffAIL）的方法，以改进传统二元分类器的准确性，从而能更好地捕捉专家示范并提高泛化性能。实验证明，该方法在两个基准任务上达到了最先进的性能，并显著超过了专家演示。

Dec, 2023

行为克隆中打击模仿代理的研究

本文提出了在部分观测到的情况下，对于专家动作序列上的重复利用问题的对抗性解决方案，以提高在多个部分观测的模仿学习任务中的性能。

Oct, 2020

使用因果不变性进行正则化的对抗模仿学习

使用因果不变性作为对抗训练模型的正则化原则，以缓解模型吸收专家数据中的虚假相关性，并在二维示例环境和高维机器人运动基准任务中展示了正则化公式的有效性。

Aug, 2023