多个黑箱神谕的活跃政策改进

Jun, 2023

Active Policy Improvement from Multiple Black-box Oracles

Xuefeng Liu, Takuma Yoneda, Chaoqi Wang, Matthew R. Walter, Yuxin Chen

TL;DR介绍了一类名为 MAPS 和 MAPS-SE 的策略改进算法，旨在通过多个次优专家的模仿学习来提高政策效果，并表现出比最先进的策略改进算法更高的样本效率优势。

Abstract

reinforcement learning (RL) has made significant strides in various complex domains. However, identifying an effective policy via RL often necessitates extensive exploration. imitation learning aims to mitigate t

reinforcement learning imitation learning policy improvement algorithms maps sample efficiency advantage

发现论文，激发创造

融合模仿学习和强化学习以实现鲁棒的策略改进

该研究通过融合强化学习和模仿学习的方法，利用自适应的策略选择和梯度优化算法，在稀疏奖励场景下有效提高样本效率，并在多个基准领域中展现出卓越的性能。

Oct, 2023

IMAP: 内在动机驱动的对抗策略

提出了一种名为 Intrinsically Motivated Adversarial Policy（简称 IMAP）的策略，用于在无需了解受害者策略的情况下，有效地进行黑盒攻击，IMAP 利用基于状态覆盖、策略覆盖、风险和策略差异的四个内在目标，鼓励探索和发现更强的攻击技能，并进行了实验验证其有效性。

May, 2023

带有噪声引导的主动模仿学习

LEAQI 算法利用差异分类器在序列标注任务中替代了昂贵、低效的查询过程，实现了更好的查询效果和准确度。

May, 2020

基于集成的交互式模仿学习

我们研究了交互式模仿学习，其中学习者通过与演示专家的互动查询动作注释，旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习（EIIL）的算法框架，可实现此目标。从理论上讲，我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔，前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上，EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。

Dec, 2023

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024

高效深度多智能体强化学习的表示学习

通过辅助学习目标，MAPO-LSO 在多智能体强化学习中通过学习有意义的潜在表示空间来提高样本效率，并展示出在各种多智能体强化学习任务中相比普通的多智能体强化学习模型有显著的学习性能和样本效率的改进。

Jun, 2024

通过模仿和强化学习实现快速政策学习

本文探讨了一种新的多算法策略，即将多种不同的 RL 和 IL 算法统一到一个 mirror descent 框架下，并提出了名为 LOKI 的基于策略学习的策略，通过 IL 和 RL 的结合可以优于次优专家。

May, 2018

基于状态对齐的模仿学习

提出一种基于状态对齐的模仿学习方法，旨在训练模仿者尽可能地模仿专家演示中的状态序列，该方法将本地和全局的状态对齐结合到一个强化学习框架中，并通过一个规则化的策略更新目标来实现。该方法在标准模仿学习设置和专家和模仿者具有不同动力学模型的模仿学习设置中显示了其优越性。

Nov, 2019

基于模仿学习的替代多智体近端策略优化算法：面向整齐群体的追逐避让

本论文提出了一种基于分散式模仿学习的多智能体代理近端策略优化（IA-MAPPO）算法，以灵活且经济高效的方式在分散式大规模多智能体系统中执行规避追击任务。该算法通过集中管理的策略蒸馏机制完成多种编队的快速切换，并利用分散化的形成控制器以降低通信开销和提高可伸缩性，同时采用替代训练方法弥补分散化带来的性能损失。模拟结果证实了 IA-MAPPO 算法的有效性，并且广泛的消融实验显示了与中心化解决方案相当的性能，并显著降低了通信开销。

Nov, 2023

高效对抗模仿学习

本研究提出了一种基于自监督表示学习的对抗性模仿学习方法，用于学习具有抗扭曲性和时间预测性的状态和动作表示，以提高样本效率，并在 MuJoCo 的 100 个专家状态 - 动作对设置中相对于现有方法表现出 39％的改进。

Mar, 2023