使用强化学习将指令和视觉观察映射到动作

EMNLPApr, 2017

使用强化学习将指令和视觉观察映射到动作

Mapping Instructions and Visual Observations to Actions with Reinforcement Learning

Dipendra Misra, John Langford, Yoav Artzi

TL;DR本文提出了一种新的方法，通过强化学习在上下文匹配的情形下，使用奖励形状进行指导，以从视觉观测和文本输入中学习单个模型，直接将其映射到行动，从而执行指令，无需中间表示、计划程序或训练不同模型，并验证在模拟环境中的有效性。

Abstract

We propose to directly map raw visual observations and text input to actions for instruction execution. While existing approaches assume a

instruction execution visual observations text input reinforcement learning neural network

发现论文，激发创造

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

利用视觉目标预测在 3D 环境中将指令映射到动作

该研究倡导将指令执行分解为目标预测和行为生成，并介绍了一种利用 LINGUNET 将观察值映射到目标，然后生成完成目标所需的行动的模型。该模型仅通过演示进行训练，并引入了两个指令跟随基准来评估该方法：LANI 和 CHAI。我们的评估证明了我们的模型分解的优势，并阐明了我们的新基准所提出的挑战。

Sep, 2018

视觉语言模型为强化学习提供可提示的表示

通过利用背景世界知识，人类能够快速学习新的行为方式。相比之下，强化学习训练的代理通常需要从零开始学习行为。因此，我们提出了一种新的方法，利用基于视觉语言模型（VLMs）的通用世界知识和可索引知识，这些模型在互联网规模的数据上进行预训练，用于实体强化学习。我们通过将 VLMs 用作可提示的表示方式来初始化策略：通过提示提供任务背景和辅助信息，这些嵌入基于视觉观察进行了接地，并编码了 VLM 的内部知识的语义特征。我们在 Minecraft 中的视觉复杂、长期的强化学习任务以及 Habitat 中的机器人导航任务上评估了我们的方法。我们发现，与从通用的非可提示图像嵌入训练的等效策略相比，我们基于通用 VLMs 提取的嵌入的训练策略表现更好。我们还发现，我们的方法优于遵循指令的方法，并与特定领域的嵌入方法效果相当。

Feb, 2024

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

面向机器人操作的指导驱动历史感知策略

本研究提出了一种基于 Transformer 的方法来处理人类语言指令和多视角场景观察，以提高机器人的精准操作，并在 RLBench 基准测试中成功实现 74 项任务，还表现出对未曾见过变化的任务的良好泛化性能。

Sep, 2022

针对多样化视觉动作技能的强化学习和模仿学习

该研究提出了一种模型无关的深度强化学习方法，利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉 - 动力学策略，直接从 RGB 相机输入到关节速度。实验结果表明，与仅使用强化学习或模仿学习训练代理的结果相比，作者的强化和模仿代理取得了显著的性能提高。此外，这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。

Feb, 2018

想象目标的视觉强化学习

介绍了一种通过结合无监督表示学习和强化学习来获得一般技能库的算法，可以处理原始感官输入（如图像），并使用后期目标重新标记方案来进一步提高其方法的样本效率，在实际机器人系统上获得了比之前的技术更好的效果。

Jul, 2018

通过视觉重写规则学习可推广行为

本文提出了一种使用规则来捕获游戏动态的深度强化学习代理方法，该方法不使用神经网络，且在多个传统游戏中表现出优异的性能，极高的样本效率和强大的泛化能力。

Dec, 2021

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019