Jun, 2024
贝叶斯解决模仿间隙
A Bayesian Solution To The Imitation Gap
Risto Vuorio, Mattie Fellows, Cong Lu, Clémence Grislain, Shimon Whiteson
TL;DR在缺乏奖励信号的环境中,我们提出了一种基于贝叶斯的解决方案(BIG),通过使用专家演示和指定未演示的探索性行为成本的先验,来推断贝叶斯逆强化学习(IRL)中的奖励后验,从而学习到基于贝叶斯的最优策略。我们的实验表明,BIG 能够在测试时适应模仿差距,同时在不存在模仿差距时仍能通过专家演示学习到最优行为。