PAGAR：带有主角 - 反角引导的对抗性奖励的模仿学习

Jun, 2023

PAGAR：带有主角 - 反角引导的对抗性奖励的模仿学习

PAGAR: Imitation Learning with Protagonist Antagonist Guided Adversarial Reward

Weichao Zhou, Wenchao Li

TL;DR本文提出 PAGAR，这是一种用于设计策略训练奖励的半监督学习范例，该算法采用迭代对抗搜索奖励函数，以最大化主角策略和反派策略之间的性能差距，并保证训练出的策略在底层任务中成功执行。实验结果表明，与现有的基于 IL / IRL 的算法相比，PAGAR 在标准设置中实现了更高的训练效率，并能够在转移环境中进行零样本学习。

Abstract

imitation learning (IL) algorithms often rely on inverse reinforcement learning (IRL) to first learn a reward function from expert demonstrations. However, IRL can suffer from identifiability issues and there is

imitation learning inverse reinforcement learning reward function policy training protagonist antagonist guided adversarial reward

发现论文，激发创造

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

多模态对抗仿真学习中的游戏角色生成

本论文提出了一种用于玩家测试的多重个人策略生成的新型模仿学习方法 —— 多模态生成对抗模仿学习（MultiGAIL），其使用辅助输入参数来学习不同的个人策略，基于生成对抗模仿学习的多重判别器作为奖励模型，通过比较代理和不同专家策略来推断出环境奖励，并根据辅助输入对每个判别器的奖励进行加权。实验分析证明了我们的技术在连续和离散行动空间的两个环境中的有效性。

Aug, 2023

程序化生成环境下高效演示逆强化学习

通过有限集的初始种子和一些训练稳定的修改，我们提出了一种基于对抗性反向强化学习的技术，名为 DE-AIRL，该技术能够显著减少对专家演示的需求，并仍能够将回报函数外推到完全程序化域，我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。

Dec, 2020

正例 - 未标注奖励学习

本文针对学习奖励模型所面临的挑战，探讨了正例 - 无标记学习算法（positive-unlabeled learning）在奖励学习问题中的应用，并验证该方法可以同时解决奖励低估和高估问题，从而显著提高 both GAIL and supervised 奖励学习的效果。

Nov, 2019

生成对抗模仿学习

提出了一种提取专家行为策略的新框架，直接从数据中提取策略，将模仿学习与生成对抗网络进行比拟，提出了无模型模仿学习算法，并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。

Jun, 2016

无需对抗性学习的引导式对话策略学习

提出了一种将对抗训练分解成两步的方法，通过辅助对话生成器训练鉴别器并将派生的奖励模型整合到一种通用强化学习方法中，以引导对话策略学习。该方法适用于在线和离线强化学习方法，可获得显著的任务成功率，并有将知识从现有领域转移到新领域的潜力。

Apr, 2020

对话生成：从模仿学习到逆强化学习

通过采用敌对模仿学习和敌对逆强化学习的方法，提出了一种新的对话生成奖励模型，可用于更精确地指导生成器训练，实验结果表明其有效性。

Dec, 2018

生成对抗模仿学习的计算与泛化

本文探讨基于生成式对抗性模型的模仿学习算法（Generative Adversarial Imitation Learning，GAIL）的理论性质，证明了对于一般的回报参数化形式，只要正确控制奖励函数的类别，就可以保证泛化效果，并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决，并具有次线性收敛性，这是关于奖励 / 策略函数逼近的统计和计算保证的第一篇研究。

Jan, 2020

生成敌对自模仿学习

本文提出了一种基于生成对抗自模仿学习 (GASIL) 的简单正则化方法，旨在通过基于生成对抗模仿学习框架鼓励智能体模仿过去的良好轨迹，而非直接最大化奖励，从而在奖励稀疏和滞后时更容易进行长期信用分配。通过使用 GASIL 作为学习形状奖励函数，将其与任何策略梯度目标轻松结合。实验结果显示，GASIL 改进了 2D PointMass 和 MuJoCo 环境下基于接近策略优化的性能。

Dec, 2018

通过对粗略局部演示进行对抗性模仿来学习敏捷技能

提出一种基于生成对抗学习的方法，通过从部分不兼容的演示中推断奖励函数，实现成功的技能获取，并在四足机器人上测试了后空翻等技能。

Jun, 2022