通过正则化逆强化学习实现奖励可转移性

Jun, 2024

通过正则化逆强化学习实现奖励可转移性

Towards the Transferability of Rewards Recovered via Regularized Inverse Reinforcement Learning

Andreas Schlaginhaufen, Maryam Kamgarpour

TL;DR逆强化学习旨在从专家示范中推断出奖励，但奖励与最优策略不唯一，本文提出主角度作为衡量转移规律相似性和差异性的更精细度量，建立了两个关键结果：1）当学习来自至少两个转移规律明显不同的专家时，对任何转移规律的可转移性提供了足够条件；2）当从单个专家学习时，对转移规律的局部变化的可转移性提供了足够条件，并提供了概率近似正确（PAC）算法和端到端分析，用于从多个专家的示范中学习可转移的奖励。

Abstract

inverse reinforcement learning (IRL) aims to infer a reward from expert demonstrations, motivated by the idea that the reward, rather than the policy, is the most succinct and transferable description of a task [Ng et al., 2000]. However, the reward corresponding to an optimal policy i

inverse reinforcement learning reward inference transferability transition laws expert demonstrations

发现论文，激发创造

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

约束反向强化学习中的可辨识性和泛化性

研究提出了一种强化学习的理论框架，旨在解决设计适当的奖励函数和保证学习策略的安全性两大挑战。文章从凸解析角度扩展了奖励可识别性和泛化性等方面的研究，并在约束马尔可夫决策过程中证明了真实奖励需要在常数范围内确定才能确保泛化到新的转移模型和约束条件。最后，文章在网格世界环境中验证了理论结果。

Jun, 2023

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了 IRL 问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

重新思考对抗性逆强化学习：从策略模仿和可转移奖励恢复的角度

在这篇研究论文中，我们重新思考了对抗性逆向强化学习 (AIRL) 的两个不同方面：策略模仿和可转移奖励恢复。我们使用软 actor-critic (SAC) 在策略优化过程中替代了 AIRL 中的内置算法，以增强样本效率，并且可识别 AIRL 相对于 SAC 具有马尔可夫决策过程 (MDP) 模型。这确实显着提高了策略模仿，但不幸的是对可转移奖励恢复带来了一些不利影响。为了解决这个问题，我们指出 SAC 算法本身无法在 AIRL 训练过程中全面解藕奖励函数，并且提出了一个混合框架 PPO-AIRL + SAC，以实现满意的转移效果。此外，我们还从代数理论的角度分析了环境从中提取解藕奖励的能力。

Mar, 2024