强化学习中用于语义新颖性的基础模型

Nov, 2022

强化学习中用于语义新颖性的基础模型

Foundation Models for Semantic Novelty in Reinforcement Learning

Tarun Gupta, Peter Karkus, Tong Che, Danfei Xu, Marco Pavone

TL;DR本文提出了一种基于 CLIP 的内在奖励，该奖励可以驱动强化学习任务中的探索，进而帮助学习者实现对世界的语义理解与认知，实验表明该方法在处理稀疏奖励、复杂的过程生成任务上比现有方法表现更优异。

Abstract

Effectively exploring the environment is a key challenge in reinforcement learning (RL). We address this challenge by defining a novel intrinsic reward based on a foundation model, such as contrastive language image pretraining (→

reinforcement learning intrinsic reward clip exploration procedurally-generated environments

发现论文，激发创造

利用语言抽象提高内在探索能力

本文研究探讨使用自然语言作为一种通用媒介以提高强化学习领域中稀疏奖励的训练效果，通过与 AMIGo 和 NovelD 等竞争性内部探索基线进行直接扩展和比较，本研究探究语言能否优化现有的探索方法，其与非语言形式相比在 MiniGrid 和 MiniHack 环境套件的 13 项挑战任务中表现更好（提高了 47-85%）。

Feb, 2022

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023

LiFT: 以基础模型为导师的无监督强化学习

通过基础模型作为教师，我们提出了一个框架，指导一个强化学习代理获取语义有意义的行为，而无需人类反馈。在我们的框架中，代理从大型语言模型中接收在训练环境中基于任务的指令。然后，一个视觉 - 语言模型通过提供奖励反馈来引导代理学习多任务的语言条件化策略。我们证明了我们的方法在具有挑战性的开放式 MineDojo 环境中可以学习语义有意义的技能，而之前的无监督技能发现方法则困难重重。此外，我们讨论了使用现成的基础模型作为教师所面临的挑战，并介绍了我们的努力来解决这些挑战。

Dec, 2023

视觉语言模型作为奖励的来源

使用视觉 - 语言模型（VLMs）作为强化学习代理的奖励来源的可行性研究，展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励，并用于训练能够实现各种语言目标的 RL 代理，通过两个不同的视觉领域展示了这种方法，并呈现了更大的 VLMs 趋势，以更准确的视觉目标成就奖励，从而产生更有能力的 RL 代理。

Dec, 2023

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

利用语言抽象和预训练表示进行语义探索

本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力，实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题，促进算法性能的提高。

Apr, 2022

视觉语言模型是强化学习的零样本奖励模型

使用预训练的视觉语言模型作为无样本奖励模型以指定任务，通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务，表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。

Oct, 2023

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024

基于生成模型的强化学习与紧凑支持集

使用强化学习作为对基础模型的控制的框架，通过生成小而专注的合成支持集来增强神经网络模型在真实数据分类任务上的性能，而无需额外的标记或数据成本。

Apr, 2024

强化学习目标条件转移学习中的预训练词嵌入

本文探讨了如何通过预训练的任务无关语言模型促进强化学习中的迁移学习，以提高样本效率，并在一组对象导航任务上进行了实验验证。

Jul, 2020