利用视觉目标预测在 3D 环境中将指令映射到动作

EMNLPSep, 2018

利用视觉目标预测在 3D 环境中将指令映射到动作

Mapping Instructions to Actions in 3D Environments with Visual Goal Prediction

Dipendra Misra, Andrew Bennett, Valts Blukis, Eyvind Niklasson, Max Shatkhin...

TL;DR该研究倡导将指令执行分解为目标预测和行为生成，并介绍了一种利用 LINGUNET 将观察值映射到目标，然后生成完成目标所需的行动的模型。该模型仅通过演示进行训练，并引入了两个指令跟随基准来评估该方法：LANI 和 CHAI。我们的评估证明了我们的模型分解的优势，并阐明了我们的新基准所提出的挑战。

Abstract

We propose to decompose instruction execution to goal prediction and action generation. We design a model that maps raw visual observations to goals using LINGUNET, a language-conditioned image generation network

instruction execution goal prediction action generation navigation task household instructions

发现论文，激发创造

使用强化学习将指令和视觉观察映射到动作

本文提出了一种新的方法，通过强化学习在上下文匹配的情形下，使用奖励形状进行指导，以从视觉观测和文本输入中学习单个模型，直接将其映射到行动，从而执行指令，无需中间表示、计划程序或训练不同模型，并验证在模拟环境中的有效性。

Apr, 2017

指令跟踪的目标表示：半监督语言接口控制

通过使用少量语言数据，我们提出了一种联合图像和目标条件策略的方法来解决语言指示问题，该方法获得了在不同场景下进行操作任务的指令跟随表现，并具有从标记数据中外推语言指示的能力。

Jun, 2023

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

使用位置访问预测将导航指令映射到连续的控制动作

该研究提出了一种将自然语言指令和原始观测映射到四轴飞行器无人机连续控制的方法，并使用两步模型分解进行简单高效的训练和评估，相对于其他指令跟踪方法，实现了 16.85％的任务完成精度提升。

Nov, 2018

追踪幽灵：将指令遵循视为贝叶斯状态跟踪

基于视觉和语言合成的导航指令，通过贝叶斯状态跟踪、语义空间地图等技术实现了目标位置的预测和导航，从而提出了一种新的显式建模状态概率分布、具有更强的几何和算法先验且可更好解释的指令跟随策略。

Jul, 2019

GoalNet: 从人类计划演示中推断出合取目标谓词，以用于机器人指令跟随

本研究旨在使机器人能够学习如何按照自然语言指示序列化其动作以执行任务，通过人类伙伴的成功演示。为了达到这个目的，我们引入了一种新颖的神经符号模型 GoalNet，它能够从人类演示和语言任务描述中推断目标谓词的上下文和任务依赖关系，并结合学习和规划以提高在多阶段任务中的决策能力。通过在一个表示语言变化的基准数据集上进行测试，我们证明了 GoalNet 在任务完成率上比现有基于规则的方法有了显著改进（51％）。

May, 2022

连续环境下基于指令导航的航点模型

使用语言指导下的路径规划，研究机器人领域中的导航方式和交互问题。通过变换不同的机器学习模型，来探索不同的路径预测方法，并发现在 navigation metrics 上，更具表现力的模型能够帮助机器人找到更优秀、更简单、更快速的路径，而低层动作则能够通过近似最短路径来获取更好的路径规划结果。

Oct, 2021

听、关注和行：将导航指令映射为动作序列的神经网络

提出一种神经序列到序列模型，用 LSMT-RNN 将自然语言指令转化为动作序列来实现有效的自主代理。该模型使用对当前世界状态显著的句子 “区域” 的多个抽象来实现对句子的多层次对其。与现有方法相比，该模型不需要专门的语言资源（例如解析器）或任务特定注释（例如种子词典），因此具有通用性，同时在基准单句数据集上取得了迄今为止最佳结果，并为有限培训多句子设定提供竞争结果。

Jun, 2015

通过情境建模和基于模型的策略学习在教学视频中进行程序规划

本文提出了一种新的过程规划公式，通过贝叶斯推论和基于模型的模仿学习，建模人类行为，从而在实际的指导视频中实现了它，证明了我们的方法可以实现达到指定目标的最先进性能的同时，学习到的上下文信息以潜在空间的形式表现出有趣的特征。

Oct, 2021

基于视觉理解规划的语言模型无需视觉输入推断详细计划

本文研究了如何将自然语言指令转化为虚拟环境中可行的多步骤行动序列，通过实证表明，结合一定的视觉信息和上下文语境，GPT-2 模型能够成功地生成金标准语句执行序列，为基于语言的虚拟代理提供了强大的视觉语义规划模块。

Sep, 2020