Jan, 2022

不要改变算法,改变数据:离线强化学习的探索性数据

TL;DR本论文提出了一种数据导向的离线强化学习方法,称为 Exploratory data for Offline RL (ExORL),通过无监督的无奖励探索生成数据,然后将其转换成特定奖励的数据,以训练出一个政策,实验证明,这种探索性的数据生成方法对于离线 RL 非常重要。