使用位置访问预测将导航指令映射到连续的控制动作

Nov, 2018

使用位置访问预测将导航指令映射到连续的控制动作

Mapping Navigation Instructions to Continuous Control Actions with Position-Visitation Prediction

Valts Blukis, Dipendra Misra, Ross A. Knepper, Yoav Artzi

TL;DR该研究提出了一种将自然语言指令和原始观测映射到四轴飞行器无人机连续控制的方法，并使用两步模型分解进行简单高效的训练和评估，相对于其他指令跟踪方法，实现了 16.85％的任务完成精度提升。

Abstract

We propose an approach for mapping natural language instructions and raw observations to continuous control of a quadcopter drone. Our model predicts interpretable →

quadcopter drone natural language instructions position-visitation distributions supervised learning imitation learning

发现论文，激发创造

使用模拟飞行学习将自然语言指令映射到物理四轴飞行器控制

提出一种联合仿真和现实学习框架，将导航指令和第一人称视角的原始观察结果映射到连续控制上，并采用监督式加强异步学习算法，将仿真和真实环境结合起来进行训练，最终在一个自然语言指令遵从的物理四轴飞行器任务中验证其有效性。

Oct, 2019

连续环境下基于指令导航的航点模型

使用语言指导下的路径规划，研究机器人领域中的导航方式和交互问题。通过变换不同的机器学习模型，来探索不同的路径预测方法，并发现在 navigation metrics 上，更具表现力的模型能够帮助机器人找到更优秀、更简单、更快速的路径，而低层动作则能够通过近似最短路径来获取更好的路径规划结果。

Oct, 2021

将自然语言导航指令翻译为行为机器人导航的高级计划

利用深度学习模型，结合自然语言处理和机器人导航，使用关注模型以及环境的拓扑表示，将自由形式的自然语言指令翻译成行为机器人高级计划，能够显著优化传统方法的表现，并且探讨了环境地图作为知识库来促进自由形式导航指令翻译的可能性。

Sep, 2018

利用视觉目标预测在 3D 环境中将指令映射到动作

该研究倡导将指令执行分解为目标预测和行为生成，并介绍了一种利用 LINGUNET 将观察值映射到目标，然后生成完成目标所需的行动的模型。该模型仅通过演示进行训练，并引入了两个指令跟随基准来评估该方法：LANI 和 CHAI。我们的评估证明了我们的模型分解的优势，并阐明了我们的新基准所提出的挑战。

Sep, 2018

移动目标的学习控制策略主动分类

本文提出了一种基于注意力机制的强化学习架构，通过计算控制输入，移动无人机到最优视角收集多个运动目标的语义信息，填补了 ' 黑匣子 ' 分类器无法对视角和输出建立分析关系的巨大空白。结果显示，该算法不仅优于多个基线算法，而且在未见过训练场景的情况下也具有泛化能力。

Dec, 2022

追踪幽灵：将指令遵循视为贝叶斯状态跟踪

基于视觉和语言合成的导航指令，通过贝叶斯状态跟踪、语义空间地图等技术实现了目标位置的预测和导航，从而提出了一种新的显式建模状态概率分布、具有更强的几何和算法先验且可更好解释的指令跟随策略。

Jul, 2019

听、关注和行：将导航指令映射为动作序列的神经网络

提出一种神经序列到序列模型，用 LSMT-RNN 将自然语言指令转化为动作序列来实现有效的自主代理。该模型使用对当前世界状态显著的句子 “区域” 的多个抽象来实现对句子的多层次对其。与现有方法相比，该模型不需要专门的语言资源（例如解析器）或任务特定注释（例如种子词典），因此具有通用性，同时在基准单句数据集上取得了迄今为止最佳结果，并为有限培训多句子设定提供竞争结果。

Jun, 2015

基于人类注意力辅助的航空视觉与对话导航的多模型融合

发展能够与人类交流并遵循自然语言命令的智能无人机，该研究提出了一种基于 AVDN 数据集的高效融合训练方法，使用 HAA-Transformer 模型和 HAA-LSTM 模型，对导航路由点和人的注意力进行预测，并在 SR、SPL 指标上取得高效果，相比基线模型，GP 指标有 7% 的改进。

Aug, 2023

自然语言机器人指令跟随的小样本物体定位与映射

该研究探讨了如何通过学习一个机器人策略来遵循自然语言指令，从而轻松地将其扩展以推理新对象，并介绍了一个基于数据增强的少量学习语言条件对象基础方法，以识别对象并将其与指令中的对象匹配。然后，将其整合到遵循指令的策略中，从而使其能够通过添加样例来推理出先前未见过的对象。经过评估，该方法在测试时比现有技术水平表现得更好，即使先前的方法在训练过程中观察到所有的对象。

Nov, 2020

无人机视觉与语言导航：AerialVLN

提出了一项名为 AerialVLN 的新任务，基于无人机（UAV）的、面向室外环境的导航，在提出的 3D 模拟器中使用高度逼真的城市景观照片进行连续导航并进行环境扩展和配置，基于跨模态对齐（CMA）导航方法的扩展基线模型，发现基线模型与人类表现之间仍存在显著差距，表明 AerialVLN 是一项具有挑战性的新任务。

Aug, 2023