对抗性模仿学习中的无标签不完美演示

AAAIFeb, 2023

对抗性模仿学习中的无标签不完美演示

Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning

Yunke Wang, Bo Du, Chang Xu

TL;DR本文提出了一种基于自对抗的无标签专家演示的算法，利用全面学习方法，动态地抽样专家演示，并与不断优化的策略进行比对，可以优化生成的轨迹，实现了动态的自我适应学习。

Abstract

adversarial imitation learning has become a widely used imitation learning framework. The discriminator is often trained by taking expert demonstrations and policy trajectories as examples respectively from two c

adversarial imitation learning expert demonstrations positive-unlabeled self-paced trajectory optimization

发现论文，激发创造

对抗模仿学习中防止假反例

通过对 Adversarial Imitation Learning 的训练信号做出调整，可以通过减少 False Negatives 的数量，从而在 BabyAI 环境中提高模型的样本效率。

Feb, 2020

高效对抗模仿学习

本研究提出了一种基于自监督表示学习的对抗性模仿学习方法，用于学习具有抗扭曲性和时间预测性的状态和动作表示，以提高样本效率，并在 MuJoCo 的 100 个专家状态 - 动作对设置中相对于现有方法表现出 39％的改进。

Mar, 2023

纯净演示中的模仿学习

基于扩散过程的两步纯化方法，通过引入噪声消除了不完美展示中的潜在扰动，并从扩散后的数据中恢复出最优的专家展示，评估结果表明方法的有效性.

Oct, 2023

从亚优示例中进行判别器加权的离线模仿学习

本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法，该算法额外引入了一个鉴别器来区分专家和非专家数据，并将其输出作为 behavioural cloning 的损失权重，实验结果表明该算法可以提高回报率和训练速度。

Jul, 2022

对于敌对性模仿学习，什么是重要的？

该研究在大规模实验中研究了逾 50 个选择项，探讨其在区分高级算法选项和低级实现细节方面的影响，发现了一些惊人的结果，特别是以人类演示为基础的模拟场景可能会使模仿算法表现不佳。

Jun, 2021

不完整演示下的对抗性模仿学习

本文提出了一种名为 AGAIL 的新算法，该算法借助不完整的演示动作序列，学习从状态到行为的映射，通过分离演示的状态和行动轨迹，并使用行动作为辅助信息来指导训练。实验结果表明，AGAIL 在基准任务上可以达到与现有最先进方法相当的性能水平。

May, 2019

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

多智能体生成对抗模仿学习

本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架，它建立在广义反向强化学习的基础上，并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。

Jul, 2018

通过估计演示者的专业水平进行模仿学习

本研究通过对演示者专业技能的无监督学习，开发了一种可同时学习演示者政策和专业技能水平的联合模型，并通过过滤每种演示者的次优行为，训练出可以优于任何演示者的单一策略，并可用于估计任意状态下演示者的专业技能，在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。

Feb, 2022

使用潜在信息进行视觉观察的对抗性模仿学习

基于视觉观测的模仿学习的研究，在部分可观察环境中，引入了基于状态潜在转换分布的上界来分析学习代理的次优性，并提出了一种名为潜在对抗性观测模仿学的算法，在高维连续机器人任务中表现出与最先进的性能，同时提供显著的计算优势，并可以利用专家视频来提高从像素进行强化学习的效率。

Sep, 2023