Aug, 2023

语言奖励调节预训练强化学习

TL;DR使用基于学习的奖励函数(LRFs)作为解决稀疏奖励强化学习(RL)任务的手段已经在任务复杂性方面取得了一些稳定的进展。本文提出了一种将LRFs作为RL的预训练信号的方法,即$ extbf{LA}$nguage Reward $ extbf{M}$odulated $ extbf{P}$retraining (LAMP),其利用Vision-Language Models (VLMs)的零样本能力作为RL的预训练工具,而不是作为下游任务奖励。通过计算大量语言指令与代理器环境中的图像观察之间的对比对齐,LAMP使用冻结的预训练VLM生成嘈杂但有形状的探索奖励。LAMP与强化学习中的寻求新颖性的探索奖励一起优化这些奖励,以获得受语言条件约束的预训练策略。我们的VLM预训练方法与以前使用LRFs的方法不同,可以在RLBench的机器人操作任务上启动样本效率高的学习。