Aug, 2023

语言奖励调节预训练强化学习

TL;DR使用基于学习的奖励函数(LRFs)作为解决稀疏奖励强化学习(RL)任务的手段已经在任务复杂性方面取得了一些稳定的进展。本文提出了一种将 LRFs 作为 RL 的预训练信号的方法,即 $ extbf {LA}$nguage Reward $ extbf {M}$odulated $ extbf {P}$retraining (LAMP),其利用 Vision-Language Models (VLMs) 的零样本能力作为 RL 的预训练工具,而不是作为下游任务奖励。通过计算大量语言指令与代理器环境中的图像观察之间的对比对齐,LAMP 使用冻结的预训练 VLM 生成嘈杂但有形状的探索奖励。LAMP 与强化学习中的寻求新颖性的探索奖励一起优化这些奖励,以获得受语言条件约束的预训练策略。我们的 VLM 预训练方法与以前使用 LRFs 的方法不同,可以在 RLBench 的机器人操作任务上启动样本效率高的学习。