Dec, 2023

视觉语言模型作为奖励的来源

TL;DR使用视觉 - 语言模型(VLMs)作为强化学习代理的奖励来源的可行性研究,展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励,并用于训练能够实现各种语言目标的 RL 代理,通过两个不同的视觉领域展示了这种方法,并呈现了更大的 VLMs 趋势,以更准确的视觉目标成就奖励,从而产生更有能力的 RL 代理。