具有次优专家的逆强化学习

Jan, 2024

Inverse Reinforcement Learning with Sub-optimal Experts

Riccardo Poiani, Gabriele Curti, Alberto Maria Metelli, Marcello Restelli

TL;DR给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Abstract

inverse reinforcement learning (IRL) techniques deal with the problem of deducing a reward function that explains the behavior of an expert agent

inverse reinforcement learning reward function expert agent sub-optimal experts feasible reward set

发现论文，激发创造

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

离线逆强化学习：新的解决方案概念和可证明高效算法

逆强化学习（IRL）的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念，捕捉了离线设置的机会和限制，并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架，我们提出了两种计算和统计高效的算法，IRLO 和 PIRLO，用于解决这个问题。

Feb, 2024

通过估计演示者的专业知识进行逆强化学习

使用不完美和异构演示在模仿学习中存在相当大的挑战，本文介绍了一种名为 IRLEED 的新框架，通过估计演示者的专业水准，克服了现有逆强化学习算法中对不完善演示的缺陷，并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明，IRLEED 具有适应性和有效性，成为从不完善演示中学习的通用解决方案。

Feb, 2024

逆强化学习的课程子目标

本研究提出了一种基于课程子目标的反向强化学习框架，通过动态选择子目标来引导智能体的学习，在 D4RL 和自动驾驶基准测试中实现了优于现有方法的结果与更好的可解释性。

Jun, 2023

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了 IRL 问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023

逆强化学习中解决不可识别性问题的研究

考虑逆强化学习的设置，其中学习者扩展了主动选择多个环境的能力，从而观察代理在每个环境中的行为。我们首先展示了，如果学习者可以在一些固定的状态和行动集上尝试任何过渡动态，那么存在一种重建代理奖励函数的算法，其理论上可能性最大，并且仅需要少量 (对数级别) 的实验。接着，我们将这个设置扩展到更加现实的情况，即学习者可能无法选择任何转移动态，而是受到一些固定环境的限制。我们将实验中得到的信息最大化问题与次模函数最大化联系起来，并展示了贪心算法是近似最优的 (对数因子)。最后，我们在一个受行为心理学启发的环境中对我们的算法进行了实证验证。

Jan, 2016

逆强化学习的新型变分下界

逆向强化学习通过学习专家轨迹的奖励函数，理解模仿或协作任务，从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL)，通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler 散度，同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略，该方法在几个已知领域上优于现有的逆向强化学习算法。

Nov, 2023

通过元反强化学习学习意图的先验知识

本文通过学习先验 (prior) 函数从其他任务的演示中推断奖励函数 (reward functions)，以优化从有限的演示中推断表达丰富的奖励函数的能力，并演示了该方法可以有效地从图像中恢复新任务的奖励。

May, 2018

逆强化学习的主动探索

本文提出使用主动探索策略的逆强化学习算法（AceIRL），该算法通过构造置信区间捕捉潜在的奖励函数，寻找信息最充分的环境区域的探索策略，从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法，并与具备环境生成模型情况下的样本复杂度相匹配，在模拟实验中证明 AceIRL 优于其他探索策略。

Jul, 2022