ICMLJul, 2021

离线元强化学习与在线自我监督

TL;DR本文提出了一种混合离线元强化学习算法,能够使用有奖离线数据来元训练自适应策略,并通过收集额外的非监督在线数据来补偿分布偏移,这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。