强化学习中用于语义新颖性的基础模型
本文研究探讨使用自然语言作为一种通用媒介以提高强化学习领域中稀疏奖励的训练效果,通过与 AMIGo 和 NovelD 等竞争性内部探索基线进行直接扩展和比较,本研究探究语言能否优化现有的探索方法,其与非语言形式相比在 MiniGrid 和 MiniHack 环境套件的 13 项挑战任务中表现更好(提高了 47-85%)。
Feb, 2022
通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力,我们设计了一个框架,将语言作为核心推理工具,能够处理一系列强化学习挑战,如有效的探索、重用经验数据、调度技能以及从观察中学习,从而改进了在模拟的机器人操作环境中的性能,并展示了如何利用学到的技能解决新任务或模仿人类专家视频。
Jul, 2023
通过基础模型作为教师,我们提出了一个框架,指导一个强化学习代理获取语义有意义的行为,而无需人类反馈。在我们的框架中,代理从大型语言模型中接收在训练环境中基于任务的指令。然后,一个视觉 - 语言模型通过提供奖励反馈来引导代理学习多任务的语言条件化策略。我们证明了我们的方法在具有挑战性的开放式 MineDojo 环境中可以学习语义有意义的技能,而之前的无监督技能发现方法则困难重重。此外,我们讨论了使用现成的基础模型作为教师所面临的挑战,并介绍了我们的努力来解决这些挑战。
Dec, 2023
使用视觉 - 语言模型(VLMs)作为强化学习代理的奖励来源的可行性研究,展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励,并用于训练能够实现各种语言目标的 RL 代理,通过两个不同的视觉领域展示了这种方法,并呈现了更大的 VLMs 趋势,以更准确的视觉目标成就奖励,从而产生更有能力的 RL 代理。
Dec, 2023
本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中,旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务(文本连续生成、摘要),取得了不错的结果,但模型可能会利用人类评估者的简单启发式规则。
Sep, 2019
本研究提出使用词汇和形象语言所构建的视觉和语言表示形式来加强强化学习的探索能力,实验证明这种方法可以改善在高维连续部分可观测空间中进行探索所遇到的问题,促进算法性能的提高。
Apr, 2022
使用预训练的视觉语言模型作为无样本奖励模型以指定任务,通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务,表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。
Oct, 2023
通过利用背景世界知识,人类能够快速学习新的行为方式。相比之下,强化学习训练的代理通常需要从零开始学习行为。因此,我们提出了一种新的方法,利用基于视觉语言模型(VLMs)的通用世界知识和可索引知识,这些模型在互联网规模的数据上进行预训练,用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略:通过提示提供任务背景和辅助信息,这些嵌入基于视觉观察进行了接地,并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现,与从通用的非可提示图像嵌入训练的等效策略相比,我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现,我们的方法优于遵循指令的方法,并与特定领域的嵌入方法效果相当。
Feb, 2024