逆强化学习有效视野
本文提出了一种适用于高维、噪声、连续的黑盒动态模型系统的新的逆强化学习算法 —— 逐步退化逆强化学习(RHIRL)以解决 IRL 面临的可扩展性和鲁棒性两大挑战。实验表明,RHIRL 在大多数情况下优于其他主流 IRL 算法,并且我们还证明了其累积误差随任务持续时间的线性增长。
Jun, 2022
解释为什么深度强化学习算法在实践中表现良好,介绍一种新的强化学习算法 SQIRL,它通过随机探索收集数据,并在这些数据上执行有限次数的值迭代来学习接近最优的策略。
Dec, 2023
使用 BRIDGE 数据集发现,深层强化学习中有效的 Horizon 为 PPO 和 DQN 算法的表现提供了更好的度量;并且可以预测使用奖励塑形或预训练探索策略的影响。
Apr, 2023
研究围绕奖励塑造的概念,提出了将模仿学习和强化学习相结合的新思路,通过近似最优的代价预测器将其融合,形成 Truncated HORizon Policy Search (THOR) 方法,以搜索对于近似最优代价预测器的有限规划下实现最大总重构奖励的策略。实验证明了 THOR 可以在代价预测器不是全局最优的情况下取得比强化学习和模仿学习更好的表现。
May, 2018
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法,我们分别设计了离线和在线设置的 IRL 算法,并建立了样本复杂度的下界,表明 RLP 和 RLE 算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。
Nov, 2023
逆强化学习(IRL)的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念,捕捉了离线设置的机会和限制,并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架,我们提出了两种计算和统计高效的算法,IRLO 和 PIRLO,用于解决这个问题。
Feb, 2024
本文提出使用主动探索策略的逆强化学习算法(AceIRL),该算法通过构造置信区间捕捉潜在的奖励函数,寻找信息最充分的环境区域的探索策略,从而快速学习专家的奖励函数和制定一个良好的策略。AceIRL 是第一种不需要环境生成模型并具有样本复杂度界限的主动逆强化学习方法,并与具备环境生成模型情况下的样本复杂度相匹配,在模拟实验中证明 AceIRL 优于其他探索策略。
Jul, 2022
提出了一种称为 “分层逆强化学习(HIRL)” 的框架,用于从展示中学习子任务结构,并使用得出的结构来学习局部奖励函数以及处理任何全局依赖关系,实验结果表明 HIRL 策略的成功率比传统方法高,并且更容易适应环境噪声和抵御干扰。
Apr, 2016