通过对空间配置进行推理实现导航

May, 2021

通过对空间配置进行推理实现导航

Towards Navigation by Reasoning over Spatial Configurations

Yue Zhang, Quan Guo, Parisa Kordjamshidi

TL;DR我们针对导航问题进行研究，提出了一种使用空间语义元素的神经代理导航模型，并探究了它们对导航代理的推理能力的影响。研究结果表明，指令中显式建模空间语义元素可以改善模型的基础和空间推理能力，并在已见及未见环境上取得了竞争性的性能。

Abstract

We deal with the navigation problem where the agent follows natural language instructions while observing the environment. Focusing on language understanding, we show the importance of spatial semantics in ground

navigation language understanding spatial semantics neural agent visual perceptions

发现论文，激发创造

基于感知的空间推理的表示学习

本文提出了一个在模拟环境中进行空间推理的模型，使用强化学习和广义值迭代方法进行训练，取得了目标定位误差减少 45% 的成果。模型以指令文本为引导，学习世界的表示，对语言和环境进行联合推理，实现了本地邻域与对应词汇的精准对齐，同时处理指令中的全局参照。

Jul, 2017

空间注意力视觉导航

本研究对物体目标视觉导航进行了研究，旨在通过强化学习算法学习智能体的策略。我们提出了一种新的注意概率模型来改进代理策略，并在常用数据集上取得了最先进的结果。

Apr, 2021

鲁棒自然语言处理 - 结合推理、认知语义学和构式语法处理空间语言

本文提出了一个系统，用于生成和理解机器人交互设置中的动态和静态空间关系。机器人使用涵盖如 “跨越” 和 “在前面” 等空间关系的英语短语描述移动方块的环境。我们在机器人之间进行了系统评估，展示了该系统可以稳健处理视觉感知错误、语言遗漏和不符合语法的话语。

Jul, 2016

Touchdown: 视觉街景中的自然语言导航和空间推理

本篇论文研究了通过导航和空间推理任务共同推理语言和视觉的问题，介绍了 Touchdown 任务和数据集，通过真实的城市环境中的导航指令和自然语言来寻找隐藏在目标位置的物体。数据集包含 9,326 个英文指令和空间描述的示例，经验性分析表明，数据对现有方法提出了开放性的挑战，定性的语言分析表明，与相关资源相比，数据利用了更丰富的空间推理。

Nov, 2018

主动语义目标导航的映射学习

本文提出了一种通过主动学习生成语义地图的框架，在未知环境下实现目标物体导航，通过在未观察区域内的语义类别的不确定性进行决策，实现了对场景中语义优先级的学习，并在 Matterport3D 数据库上验证了改进的导航效果。

Jun, 2021

使用语义地图监督学习导航视觉表征

我们提出了一种新颖的导航特定的视觉表示学习方法，通过对比代理的自我中心视图和语义地图（Ego$^2$-Map），将地图中的紧凑且丰富的信息转移到代理的自我中心表示中，从而实现室内导航。我们的实验结果表明，采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法，并且我们的表示显著改善了连续环境下的视觉和语言导航，在高级和低级行动空间上均取得了 47％的 SR 和 41％的 SPL 的最新最佳结果。

Jul, 2023

具有韧性和可解释性的关系网络空间参考基础

本论文提出一种文本条件化的关系网络模型，通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系，从而实现对文本中空间参照的理解，具有可解释性和鲁棒性，在三个任务中实现了 17% 和 15% 的表现改进，从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。

May, 2020

基于层次空间接近原理的视觉语言导航

该论文提出了一种基于 Hierarchical Spatial Proximity Reasoning（HSPR）模型的视觉语言导航算法，通过引入 Scene Understanding Auxiliary Task（SUAT）来构建空间接近性知识库，利用 Multi-step Reasoning Navigation Algorithm（MRNA）进行路径规划，并通过引入 Proximity Adaptive Attention Module（PAAM）和 Residual Fusion Method（RFM）提高导航决策的准确性。实验证明了该方法的有效性。

Mar, 2024

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

在未知环境中跟随自然语言指令的学习模型

本文提出了一个新的学习框架，使得机器人可以成功地遵循自然语言路线指令，而无需任何先前环境的知识。该算法利用通过命令传达给机器人的空间和语义信息来学习关于空间扩展环境的度量和语义属性的分布，并将自然语言指令解释为关于预期行为的分布。通过对地图和状态分布进行推理，使用模仿学习的新型置信空间规划器直接求解策略，我们在可声控轮椅上评估了我们的框架。结果表明，通过学习和推理潜在的环境模型，该算法能够成功地遵循新颖的扩展环境中的自然语言路线指令。

Mar, 2015