通过强化学习将大型视觉语言模型细调为决策代理
使用视觉 - 语言模型(VLMs)作为强化学习代理的奖励来源的可行性研究,展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励,并用于训练能够实现各种语言目标的 RL 代理,通过两个不同的视觉领域展示了这种方法,并呈现了更大的 VLMs 趋势,以更准确的视觉目标成就奖励,从而产生更有能力的 RL 代理。
Dec, 2023
利用预训练的视觉语言模型(VLMs)来支持强化学习代理的训练,提出了一种名为 VLM-CaR 的框架,通过代码生成从 VLMs 生成密集奖励函数,从而大大减轻了直接查询 VLM 的计算负担,证明了该方法在各种离散和连续环境中生成的密集奖励非常准确,并且可以比原始的稀疏环境奖励更有效地训练强化学习策略。
Feb, 2024
使用预训练的视觉语言模型作为无样本奖励模型以指定任务,通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务,表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。
Oct, 2023
通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023
通过利用背景世界知识,人类能够快速学习新的行为方式。相比之下,强化学习训练的代理通常需要从零开始学习行为。因此,我们提出了一种新的方法,利用基于视觉语言模型(VLMs)的通用世界知识和可索引知识,这些模型在互联网规模的数据上进行预训练,用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略:通过提示提供任务背景和辅助信息,这些嵌入基于视觉观察进行了接地,并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现,与从通用的非可提示图像嵌入训练的等效策略相比,我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现,我们的方法优于遵循指令的方法,并与特定领域的嵌入方法效果相当。
Feb, 2024
提出了一种自动生成奖励函数的方法 RL-VLM-F,通过利用视觉语言基础模型的反馈,从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数,避免了人力成本和试错过程,在各个领域中成功产生了有效的奖励和策略,并优于使用大规模预训练模型的先前方法。
Feb, 2024
本研究提出了 Fine-tune-CoT 方法,该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型,从而在较小的模型中实现了大量的推理能力优化。
Dec, 2022
通过在互联网规模的数据上训练视觉语言模型,将其直接融入端到端的机器人控制中,提高泛化能力和实现新兴的语义推理。我们提出了一种简单通用的方法,在模型训练集中直接将行动表现为文本标记,将自然语言回答和机器人行动合并到同一个格式中,从而实现了单一端到端训练模型的目标。我们将这类模型称为视觉语言行动模型(VLA),并以 RT-2 为例进行了实例化。广泛的评估结果表明,我们的方法可以得到性能优越的机器人策略,并使 RT-2 在互联网规模的训练中获得一系列新兴能力。这包括对新对象的显著改进的泛化能力,解释不在机器人训练数据中的命令(比如将物体放在特定的编号或图标上)的能力,以及对用户指令做出初步推理的能力(比如选择最小或最大的物体,或者离另一个物体最近的物体)。我们进一步说明了通过思维链式推理,RT-2 可以进行多阶段的语义推理,例如找到作为非正式锤子使用的物体(一块石头),或者适合疲劳人群的饮料类型(一种能量饮料)。
Jul, 2023
该研究介绍了一个多智能体框架 (GameVLM),使用预先训练的视觉语言模型 (GPT-4V) 来增强机器人任务规划中的决策过程,通过引入零和博弈理论来解决不同智能体之间的一致性问题,并得出最优解,实验证明该框架具有 83.3% 的平均成功率。
May, 2024
本研究调查了如何利用预训练的视觉语言模型(VLM)用于在线强化学习(RL),特别关注稀疏奖励任务下的奖励错位问题,提出了一种轻量级微调方法(称为 FuRL),通过奖励对齐和中继 RL 来增强 SAC/DrQ 基准智能体在稀疏奖励任务中的性能,实验证明了该方法的有效性。
Jun, 2024