FoMo 奖励：我们能否将基础模型视为奖励函数？

Dec, 2023

FoMo 奖励：我们能否将基础模型视为奖励函数？

FoMo Rewards: Can we cast foundation models as reward functions?

Ekdeep Singh Lubana, Johann Brehmer, Pim de Haan, Taco Cohen

TL;DR我们探索将基础模型作为增强学习的通用奖励函数的可行性，为此我们提出了一个简单的流程，通过将现成的视觉模型与大型语言模型进行接口连接，推断给定的观察轨迹中描述用户期望代理程序执行的任务的指令的可能性，展示了这种通用可能性函数体现了预期的奖励函数特性，它将高值与期望行为相关联，并为多个相似但不正确的策略给出较低值，总体上，我们的工作开辟了通过基础模型设计交互任务的无限代理的可能性。

Abstract

We explore the viability of casting foundation models as generic reward functions for reinforcement learning. To this end, we propose a simple pipeline that interfaces an off-the-shelf →

foundation models generic reward functions reinforcement learning vision model interactive tasks

发现论文，激发创造

LiFT: 以基础模型为导师的无监督强化学习

通过基础模型作为教师，我们提出了一个框架，指导一个强化学习代理获取语义有意义的行为，而无需人类反馈。在我们的框架中，代理从大型语言模型中接收在训练环境中基于任务的指令。然后，一个视觉 - 语言模型通过提供奖励反馈来引导代理学习多任务的语言条件化策略。我们证明了我们的方法在具有挑战性的开放式 MineDojo 环境中可以学习语义有意义的技能，而之前的无监督技能发现方法则困难重重。此外，我们讨论了使用现成的基础模型作为教师所面临的挑战，并介绍了我们的努力来解决这些挑战。

Dec, 2023

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

基础模型向导：通过知识和推理指引基础模型

基于对代理与基础模型互动模式的分类和对该模式的扩展架构提出的综述性论文，为实现基础模型在实际人工智能系统中的潜力提供了指导。

Feb, 2024

决策基础模型：问题、方法与机遇

本文检查了基于决策制定的基础模型的范围，并提供了理解问题空间和探索新研究方向的概念工具和技术背景。通过各种方法，例如提示、条件生成建模、规划、最优控制和强化学习，审查了将基础模型用于实际决策制定应用的最近方法，并讨论了该领域的常见挑战和开放问题。

Mar, 2023

强化学习中用于语义新颖性的基础模型

本文提出了一种基于 CLIP 的内在奖励，该奖励可以驱动强化学习任务中的探索，进而帮助学习者实现对世界的语义理解与认知，实验表明该方法在处理稀疏奖励、复杂的过程生成任务上比现有方法表现更优异。

Nov, 2022

基于基础模型反馈的政策调整

使用基於視覺和語言的模型的預先訓練模型作為演示解決方案，通過 Policy Adaptation from Foundation model Feedback（PAFF）技術可以在任務和環境不斷變化的情況下，創建可以實現分類、物體抓取和導航的通用機器人。

Dec, 2022

基线分析奖励模型在分布转移下准确分析基础模型的能力

基于大型语言模型的基石模型，通过人类反馈的强化学习训练来捕捉期望的行为，并通过奖励模型对语言模型进行校准。然而，很少有研究评估这些奖励模型对分布偏移的鲁棒性，本研究评估了奖励模型性能与分布偏移的关系，并展示了由于异常输入导致的校准和准确率下降问题，并提出了在奖励模型中检测分布偏移的方法。

Nov, 2023

基础代理：决策制定的范式转变

决策制定需要通过知觉、记忆和推理之间的复杂相互作用来识别最优策略。本文提出基于基础代理的构建作为学习代理的一种变革性转变，旨在解决决策制定中面临的低样本效率和泛化能力差的挑战。通过从大型语言模型（LLMs）获得启示，明确了基础代理的基本特征和面临的挑战，以及从大规模的交互式数据收集或生成到自监督预训练和自适应，再到与 LLMs 的知识和价值对齐的基础代理的路线图。最后，指出了从提出的构想中得出的关键研究问题，并勾勒了基于真实世界用例支持的基础代理的趋势，旨在解决技术和理论方面的问题，推动该领域朝着更全面和有影响力的未来发展。

May, 2024

多模态基于世界模型的通用型智能体

通过引入多模态基础世界模型，GenRL 代理学习框架能够将基础视觉语言模型的表示与生成式世界模型的潜在空间连接和对齐，从而克服了现有基础视觉语言模型在不同领域上的问题，并在多个运动和操作领域展现了强大的多任务泛化性能。此外，通过引入无数据强化学习策略，还为通用性的综合模型基于强化学习的全能代理奠定了基础。

Jun, 2024