LiFT: 以基础模型为导师的无监督强化学习

Dec, 2023

LiFT: 以基础模型为导师的无监督强化学习

LiFT: Unsupervised Reinforcement Learning with Foundation Models as Teachers

Taewook Nam, Juyong Lee, Jesse Zhang, Sung Ju Hwang, Joseph J. Lim...

TL;DR通过基础模型作为教师，我们提出了一个框架，指导一个强化学习代理获取语义有意义的行为，而无需人类反馈。在我们的框架中，代理从大型语言模型中接收在训练环境中基于任务的指令。然后，一个视觉 - 语言模型通过提供奖励反馈来引导代理学习多任务的语言条件化策略。我们证明了我们的方法在具有挑战性的开放式 MineDojo 环境中可以学习语义有意义的技能，而之前的无监督技能发现方法则困难重重。此外，我们讨论了使用现成的基础模型作为教师所面临的挑战，并介绍了我们的努力来解决这些挑战。

Abstract

We propose a framework that leverages foundation models as teachers, guiding a reinforcement learning agent to acquire semantically meaningful behavior without human feedback. In our framework, the agent receives

foundation models reinforcement learning language models vision-language model skill discovery methods

发现论文，激发创造

FoMo 奖励：我们能否将基础模型视为奖励函数？

我们探索将基础模型作为增强学习的通用奖励函数的可行性，为此我们提出了一个简单的流程，通过将现成的视觉模型与大型语言模型进行接口连接，推断给定的观察轨迹中描述用户期望代理程序执行的任务的指令的可能性，展示了这种通用可能性函数体现了预期的奖励函数特性，它将高值与期望行为相关联，并为多个相似但不正确的策略给出较低值，总体上，我们的工作开辟了通过基础模型设计交互任务的无限代理的可能性。

Dec, 2023

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

RL-VLM-F: 视觉语言基础模型反馈的强化学习

提出了一种自动生成奖励函数的方法 RL-VLM-F，通过利用视觉语言基础模型的反馈，从任务目标的文本描述和代理人的视觉观察中自动生成奖励函数，避免了人力成本和试错过程，在各个领域中成功产生了有效的奖励和策略，并优于使用大规模预训练模型的先前方法。

Feb, 2024

基于生成模型的强化学习与紧凑支持集

使用强化学习作为对基础模型的控制的框架，通过生成小而专注的合成支持集来增强神经网络模型在真实数据分类任务上的性能，而无需额外的标记或数据成本。

Apr, 2024

基础模型向导：通过知识和推理指引基础模型

基于对代理与基础模型互动模式的分类和对该模式的扩展架构提出的综述性论文，为实现基础模型在实际人工智能系统中的潜力提供了指导。

Feb, 2024

基础强化学习：面向具有基础先验辅助的行动通用智能体

我们提出了一种新颖而强大的学习范式，名为 Foundation Reinforcement Learning（FRL），该范式完全依赖于具体化的基础先验来进行探索、学习和强化，以实现具身化的通用型智能体。

Oct, 2023

强化学习中用于语义新颖性的基础模型

本文提出了一种基于 CLIP 的内在奖励，该奖励可以驱动强化学习任务中的探索，进而帮助学习者实现对世界的语义理解与认知，实验表明该方法在处理稀疏奖励、复杂的过程生成任务上比现有方法表现更优异。

Nov, 2022

使用随机特征的自监督强化学习转移

通过在模型自由学习算法中引入自我监督学习的方法，使其能够实现任务转移；该方法是有监督的，可以在没有奖励标签的情况下进行训练，并且可以快速地部署到新任务中。

May, 2023

基于基础模型的人机协同持续机器人学习

通过使用基于大型语言模型的规划器，我们克服了当前固定技能集的限制，提出了一种用于数据和时间高效教授机器人这些技能的方法，该系统可以重复使用新习得的技能，展示了开放世界和终身学习的潜力。

Sep, 2023

DeLF: 使用基础模型设计学习环境

通过使用大语言模型设计和编码用户预期的学习场景，我们提出了一种名为 DeLF 的方法，用于设计强化学习环境的组件，以解决在实践中应用 RL 在许多简单应用中仍然困难的问题。我们通过在四个不同的学习环境上测试我们的方法，证明 DeLF 能够为相应的 RL 问题获得可执行的环境代码。

Jan, 2024