Oct, 2024

重新思考逆强化学习:从数据对齐到任务对齐

TL;DR本研究解决了逆强化学习(IRL)在推断奖励函数时常常无法捕捉任务目标的问题。我们提出了一种新颖的框架,侧重于任务对齐,并通过专家示范作为弱监督来生成候选奖励函数,以此训练策略,验证其完成任务的能力。实验结果表明,该框架在复杂和迁移学习场景中优于传统的模仿学习基线。