RILe: 强化模仿学习

Jun, 2024

RILe: Reinforced Imitation Learning

Mert Albaba, Sammy Christen, Christoph Gebhardt, Thomas Langarek, Michael J. Black...

TL;DRRILe 是一个学生 - 教师系统，通过根据学生的表现和与专家演示的一致性动态调整奖励函数，实现对不完美数据的鲁棒性，并在具有有限或嘈杂专家数据的环境中优于现有方法的 2 倍。

Abstract

reinforcement learning has achieved significant success in generating complex behavior but often requires extensive reward function engineering. Adversarial variants of imitation learning and Inverse

reinforcement learning imitation learning inverse reinforcement learning rile data imperfections

发现论文，激发创造

通过估计演示者的专业知识进行逆强化学习

使用不完美和异构演示在模仿学习中存在相当大的挑战，本文介绍了一种名为 IRLEED 的新框架，通过估计演示者的专业水准，克服了现有逆强化学习算法中对不完善演示的缺陷，并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明，IRLEED 具有适应性和有效性，成为从不完善演示中学习的通用解决方案。

Feb, 2024

ReIL: 基于强化干预的模仿学习框架

本文提出了一种基于增强和干预的多任务学习框架 --ReIL，该框架旨在实现在无需过多监督和调整的情况下，在真实环境中训练代理。实验结果表明，相较于其他基于干预的方法，ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法，能够在稀疏监督信号的情况下快速学习并保持性能。

Mar, 2022

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

通过对抗逆强化学习学习鲁棒奖励

本文提出了一种新颖的反向强化学习算法，基于对抗奖励学习框架，该算法能够实现自动奖励学习并在大规模高维问题中具有很强的适用性和可扩展性，提高了强化学习的性能和应用范围。

Oct, 2017

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024

视频游戏的逆强化学习

通过改良强化学习反求解奖励函数模型的 CNN-AIRL 方法以及使用对电子游戏环境进行了调整的自动编码器将专家演示转化为奖励网络的输入，本文在简单的 Catcher 游戏上取得了高水平表现，显著超越了 CNN-AIRL 基线，但在 Enduro Atari 赛车游戏中表现不佳，这彰显了需要进一步研究的必要性。

Oct, 2018

外部奖励的软 Q 模仿学习和判别器

利用鉴别器的软 Q 模仿学习算法（DSQIL）结合通过对抗逆强化学习的奖励函数，对小规模样本数据进行高效、鲁棒的模仿学习与训练。

Jan, 2024

内部奖励的强化学习

本文介绍了一种称为内部奖励强化学习的学习环境，在该环境下奖励信号不是直接来自环境，而是由一个与策略一起被优化的判别器产生。通过理论和实验证明了引入特定奖励函数可以减缓噪声带来的影响，使得训练过程更加稳定快速，性能更好。

Feb, 2023