倒置强化学习的理论理解
逆强化学习(IRL)的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念,捕捉了离线设置的机会和限制,并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架,我们提出了两种计算和统计高效的算法,IRLO 和 PIRLO,用于解决这个问题。
Feb, 2024
给定一个包含多个次优专家行为的问题,我们将逆向强化学习(IRL)方法扩展到了这种情况,研究了与给定专家集兼容的奖励函数的理论性质,并分析了使用生成模型估计可行奖励集的统计复杂性,得到了一个具有极小极大最优性的均匀采样算法。
Jan, 2024
本文对逆强化学习领域的现有文献进行了分类调查,介绍了 IRL 问题和其挑战,讨论了目前的解决方法,并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法,同时总结了该领域的研究进展和当前未解决的问题。
Jun, 2018
逆向强化学习通过学习专家轨迹的奖励函数,理解模仿或协作任务,从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL),通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler 散度,同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略,该方法在几个已知领域上优于现有的逆向强化学习算法。
Nov, 2023
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法,我们分别设计了离线和在线设置的 IRL 算法,并建立了样本复杂度的下界,表明 RLP 和 RLE 算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。
Nov, 2023
本文提出使用主动探索策略的逆强化学习算法(AceIRL),该算法通过构造置信区间捕捉潜在的奖励函数,寻找信息最充分的环境区域的探索策略,从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法,并与具备环境生成模型情况下的样本复杂度相匹配,在模拟实验中证明 AceIRL 优于其他探索策略。
Jul, 2022
本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法,发现了它们属于一类共同形式目标、策略和目标梯度的优化问题,探究了不同方法的适用场景和算法效率。
Mar, 2021
给定一个专家示范数据集,逆向强化学习(IRL)旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励,并采用随机软策略迭代算法更新策略,假设可以访问一个生成模型,我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程(MDP)样本能够恢复一个 ε- 最优奖励。此外,我们证明在 O (1/ε^4) 个样本情况下,所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。
Mar, 2024
考虑逆强化学习的设置,其中学习者扩展了主动选择多个环境的能力,从而观察代理在每个环境中的行为。我们首先展示了,如果学习者可以在一些固定的状态和行动集上尝试任何过渡动态,那么存在一种重建代理奖励函数的算法,其理论上可能性最大,并且仅需要少量 (对数级别) 的实验。接着,我们将这个设置扩展到更加现实的情况,即学习者可能无法选择任何转移动态,而是受到一些固定环境的限制。我们将实验中得到的信息最大化问题与次模函数最大化联系起来,并展示了贪心算法是近似最优的 (对数因子)。最后,我们在一个受行为心理学启发的环境中对我们的算法进行了实证验证。
Jan, 2016