Nov, 2023
反向强化学习是否比标准强化学习更困难?
Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning?
TL;DR逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法,我们分别设计了离线和在线设置的IRL算法,并建立了样本复杂度的下界,表明RLP和RLE算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。