Jan, 2022
不要改变算法,改变数据:离线强化学习的探索性数据
Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning
Denis Yarats, David Brandfonbrener, Hao Liu, Michael Laskin, Pieter Abbeel...
TL;DR本论文提出了一种数据导向的离线强化学习方法,称为 Exploratory data for Offline RL (ExORL),通过无监督的无奖励探索生成数据,然后将其转换成特定奖励的数据,以训练出一个政策,实验证明,这种探索性的数据生成方法对于离线 RL 非常重要。