BriefGPT.xyz
Ask
alpha
关键词
unsupervised online data
搜索结果 - 1
ICML
离线元强化学习与在线自我监督
本文提出了一种混合离线元强化学习算法,能够使用有奖离线数据来元训练自适应策略,并通过收集额外的非监督在线数据来补偿分布偏移,这种算法比以前的元 RL 方法在模拟机器人运动和操纵任务中表现更为优异。
PDF
3 years ago
Prev
Next