Feb, 2024

以代码为酬励:以 VLMs 强化学习为动力

TL;DR利用预训练的视觉语言模型(VLMs)来支持强化学习代理的训练,提出了一种名为 VLM-CaR 的框架,通过代码生成从 VLMs 生成密集奖励函数,从而大大减轻了直接查询 VLM 的计算负担,证明了该方法在各种离散和连续环境中生成的密集奖励非常准确,并且可以比原始的稀疏环境奖励更有效地训练强化学习策略。