EvIL：演化策略用于可广泛应用的模仿学习

ICMLJun, 2024

EvIL：演化策略用于可广泛应用的模仿学习

EvIL: Evolution Strategies for Generalisable Imitation Learning

Silvia Sapora, Gokul Swamy, Chris Lu, Yee Whye Teh, Jakob Nicolaus Foerster

TL;DR在仿真学习中，我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能，同时加速目标环境中的重新训练，在连续控制任务中比之前的工作更加高效地重新训练策略。

Abstract

Often times in imitation learning (IL), the environment we collect expert demonstrations in and the environment we want to deploy our learned policy in aren't exactly the same (e.g. demonstrations collected in simulation but deployment in the real world). Compared to policy-centric app

imitation learning inverse reinforcement learning reward model ensembles evil continuous control tasks

发现论文，激发创造

基于能量的模仿学习

该论文提出了一种简化的能量基模仿学习（EBIL）框架，该框架使用分数匹配来估计专家能量，然后使用其作为强化学习算法中的奖励来学习策略，以实现与目前现有算法相当的性能水平。

Apr, 2020

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

程序化生成环境下高效演示逆强化学习

通过有限集的初始种子和一些训练稳定的修改，我们提出了一种基于对抗性反向强化学习的技术，名为 DE-AIRL，该技术能够显著减少对专家演示的需求，并仍能够将回报函数外推到完全程序化域，我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。

Dec, 2020

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023

通过估计演示者的专业知识进行逆强化学习

使用不完美和异构演示在模仿学习中存在相当大的挑战，本文介绍了一种名为 IRLEED 的新框架，通过估计演示者的专业水准，克服了现有逆强化学习算法中对不完善演示的缺陷，并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明，IRLEED 具有适应性和有效性，成为从不完善演示中学习的通用解决方案。

Feb, 2024

通过模仿和强化学习实现快速政策学习

本文探讨了一种新的多算法策略，即将多种不同的 RL 和 IL 算法统一到一个 mirror descent 框架下，并提出了名为 LOKI 的基于策略学习的策略，通过 IL 和 RL 的结合可以优于次优专家。

May, 2018

通过正则化逆强化学习实现奖励可转移性

逆强化学习旨在从专家示范中推断出奖励，但奖励与最优策略不唯一，本文提出主角度作为衡量转移规律相似性和差异性的更精细度量，建立了两个关键结果：1）当学习来自至少两个转移规律明显不同的专家时，对任何转移规律的可转移性提供了足够条件；2）当从单个专家学习时，对转移规律的局部变化的可转移性提供了足够条件，并提供了概率近似正确（PAC）算法和端到端分析，用于从多个专家的示范中学习可转移的奖励。

Jun, 2024