逆强化学习有效视野

Jul, 2023

On the Effective Horizon of Inverse Reinforcement Learning

Yiqing Xu, Finale Doshi-Velez, David Hsu

TL;DR本研究分析了逆强化学习的时间跨度对于奖励估计准确性和计算效率的影响，并提出了使用更短的时间跨度可以更快地产生更好结果的解释。此研究还提出了在逆强化学习中一起学习奖励和有效时间跨度比独立学习奖励更为自然的看法。实验结果证实了理论分析。

Abstract

inverse reinforcement learning (IRL) algorithms often rely on (forward) reinforcement learning or planning over a given time horizon to compute an approximately optimal policy for a hypothesized →

inverse reinforcement learning time horizon policy class overfitting reward function

发现论文，激发创造

前瞻性逆强化学习

本文提出了一种适用于高维、噪声、连续的黑盒动态模型系统的新的逆强化学习算法 —— 逐步退化逆强化学习（RHIRL）以解决 IRL 面临的可扩展性和鲁棒性两大挑战。实验表明，RHIRL 在大多数情况下优于其他主流 IRL 算法，并且我们还证明了其累积误差随任务持续时间的线性增长。

Jun, 2022

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

有效性视野解释随机环境中的深度强化学习表现

解释为什么深度强化学习算法在实践中表现良好，介绍一种新的强化学习算法 SQIRL，它通过随机探索收集数据，并在这些数据上执行有限次数的值迭代来学习接近最优的策略。

Dec, 2023

通过控制有效的规划视野进行离线模仿学习

通过控制有效计划视域，我们纠正了常见离线模仿学习算法中的近似误差问题，从而提升了算法的性能。

Jan, 2024

用有效视界连接强化学习理论与实践

使用 BRIDGE 数据集发现，深层强化学习中有效的 Horizon 为 PPO 和 DQN 算法的表现提供了更好的度量；并且可以预测使用奖励塑形或预训练探索策略的影响。

Apr, 2023

截断视野策略搜索：结合强化学习与模仿学习

研究围绕奖励塑造的概念，提出了将模仿学习和强化学习相结合的新思路，通过近似最优的代价预测器将其融合，形成 Truncated HORizon Policy Search (THOR) 方法，以搜索对于近似最优代价预测器的有限规划下实现最大总重构奖励的策略。实验证明了 THOR 可以在代价预测器不是全局最优的情况下取得比强化学习和模仿学习更好的表现。

May, 2018

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023

离线逆强化学习：新的解决方案概念和可证明高效算法

逆强化学习（IRL）的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念，捕捉了离线设置的机会和限制，并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架，我们提出了两种计算和统计高效的算法，IRLO 和 PIRLO，用于解决这个问题。

Feb, 2024

逆强化学习的主动探索

本文提出使用主动探索策略的逆强化学习算法（AceIRL），该算法通过构造置信区间捕捉潜在的奖励函数，寻找信息最充分的环境区域的探索策略，从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法，并与具备环境生成模型情况下的样本复杂度相匹配，在模拟实验中证明 AceIRL 优于其他探索策略。

Jul, 2022

HIRL: 带有延迟奖励的长时程任务的层次逆强化学习

提出了一种称为 “分层逆强化学习（HIRL）” 的框架，用于从展示中学习子任务结构，并使用得出的结构来学习局部奖励函数以及处理任何全局依赖关系，实验结果表明 HIRL 策略的成功率比传统方法高，并且更容易适应环境噪声和抵御干扰。

Apr, 2016