朝着计算高效的逆强化学习方向进发：通过奖励塑形

Dec, 2023

朝着计算高效的逆强化学习方向进发：通过奖励塑形

Toward Computationally Efficient Inverse Reinforcement Learning via Reward Shaping

Lauren H. Cooke, Harvey Klyne, Edwin Zhang, Cassidy Laidlaw, Milind Tambe...

TL;DR逆向强化学习是具有计算挑战性的，常见方法需要解决多个强化学习子问题。本研究激励使用基于潜力的奖励塑造来减轻每个强化学习子问题的计算负担，并希望能激发未来对计算效率高的逆向强化学习的发展。

Abstract

inverse reinforcement learning (irl) is computationally challenging, with common approaches requiring the solution of multiple reinforcement learning (RL) sub-problems. This work motivates the use of potential-ba

inverse reinforcement learning irl potential-based reward shaping computational burden computationally efficient

发现论文，激发创造

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

逆强化学习综述：挑战、方法与进展

本文对逆强化学习领域的现有文献进行了分类调查，介绍了 IRL 问题和其挑战，讨论了目前的解决方法，并探讨了处理传感不准确、不完整的模型、多个奖励函数和非线性奖励函数等问题的方法，同时总结了该领域的研究进展和当前未解决的问题。

Jun, 2018

约束反向强化学习中的可辨识性和泛化性

研究提出了一种强化学习的理论框架，旨在解决设计适当的奖励函数和保证学习策略的安全性两大挑战。文章从凸解析角度扩展了奖励可识别性和泛化性等方面的研究，并在约束马尔可夫决策过程中证明了真实奖励需要在常数范围内确定才能确保泛化到新的转移模型和约束条件。最后，文章在网格世界环境中验证了理论结果。

Jun, 2023

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024

离线逆强化学习：新的解决方案概念和可证明高效算法

逆强化学习（IRL）的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念，捕捉了离线设置的机会和限制，并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架，我们提出了两种计算和统计高效的算法，IRLO 和 PIRLO，用于解决这个问题。

Feb, 2024

逆强化学习的课程子目标

本研究提出了一种基于课程子目标的反向强化学习框架，通过动态选择子目标来引导智能体的学习，在 D4RL 和自动驾驶基准测试中实现了优于现有方法的结果与更好的可解释性。

Jun, 2023

学习如何利用成形奖励：一种新的奖励成形方法

本文提出了一种自适应利用给定塑形奖励函数的算法，通过将塑形奖励作为一个双层优化问题来解决，从而实现了真实奖励的最大化，并基于这个问题，提出了三种基于不同假设的学习算法。实验结果表明，我们的算法可以充分利用有益的塑形奖励，同时忽略无益的塑形奖励或者甚至将它们转化为有益的。

Nov, 2020

通过正则化逆强化学习实现奖励可转移性

逆强化学习旨在从专家示范中推断出奖励，但奖励与最优策略不唯一，本文提出主角度作为衡量转移规律相似性和差异性的更精细度量，建立了两个关键结果：1）当学习来自至少两个转移规律明显不同的专家时，对任何转移规律的可转移性提供了足够条件；2）当从单个专家学习时，对转移规律的局部变化的可转移性提供了足够条件，并提供了概率近似正确（PAC）算法和端到端分析，用于从多个专家的示范中学习可转移的奖励。

Jun, 2024

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024