Feb, 2024

离线逆强化学习:新的解决方案概念和可证明高效算法

TL;DR逆强化学习(IRL)的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念,捕捉了离线设置的机会和限制,并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架,我们提出了两种计算和统计高效的算法,IRLO 和 PIRLO,用于解决这个问题。