ICMLMar, 2022

利用视频进行无动作预训练的强化学习

TL;DR本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构,该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型,以更好地实现探索。同时也提出了基于视频的内在激励奖励机制,利用预训练表示的优势,有效提升了数据利用率和最终权能的完成度。