ICLRApr, 2022

何时应该优先选择离线强化学习而不是行为克隆?

TL;DR本文研究离线强化学习在何种情况下可以胜过仅仅利用专家数据的行为克隆算法,结果表明:可以在特定的条件下,如稀疏奖励或嘈杂的数据源,现代离线学习方法可以显着地胜过行为克隆算法,尤其是在长期视野问题上,甚至比专家数据上的行为克隆算法更好。