Jun, 2024

贝叶斯解决模仿间隙

TL;DR在缺乏奖励信号的环境中,我们提出了一种基于贝叶斯的解决方案(BIG),通过使用专家演示和指定未演示的探索性行为成本的先验,来推断贝叶斯逆强化学习(IRL)中的奖励后验,从而学习到基于贝叶斯的最优策略。我们的实验表明,BIG 能够在测试时适应模仿差距,同时在不存在模仿差距时仍能通过专家演示学习到最优行为。