ICLRFeb, 2024

SEABO: 离线模仿学习的简单基于搜索的方法

TL;DR通过基于专家数据和未标记数据的简单有效的基于搜索的离线模仿学习方法 SEABO 来获取奖励函数,SEABO 可在只有一个专家轨迹的情况下取得与带有真实奖励的离线强化学习算法相竞争的性能,并在许多任务中优于先前的奖励学习和离线模仿学习方法。