基于感知的空间推理的表示学习

ACLJul, 2017

Representation Learning for Grounded Spatial Reasoning

Michael Janner, Karthik Narasimhan, Regina Barzilay

TL;DR本文提出了一个在模拟环境中进行空间推理的模型，使用强化学习和广义值迭代方法进行训练，取得了目标定位误差减少 45% 的成果。模型以指令文本为引导，学习世界的表示，对语言和环境进行联合推理，实现了本地邻域与对应词汇的精准对齐，同时处理指令中的全局参照。

Abstract

The interpretation of spatial references is highly contextual, requiring joint inference over both language and the environment. We consider the task of spatial reasoning in a simulated environment, where an agen

spatial reasoning simulated environment instruction text reinforcement learning goal localization error

发现论文，激发创造

具有韧性和可解释性的关系网络空间参考基础

本论文提出一种文本条件化的关系网络模型，通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系，从而实现对文本中空间参照的理解，具有可解释性和鲁棒性，在三个任务中实现了 17% 和 15% 的表现改进，从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。

May, 2020

通过对空间配置进行推理实现导航

我们针对导航问题进行研究，提出了一种使用空间语义元素的神经代理导航模型，并探究了它们对导航代理的推理能力的影响。研究结果表明，指令中显式建模空间语义元素可以改善模型的基础和空间推理能力，并在已见及未见环境上取得了竞争性的性能。

May, 2021

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

Space - 语言模型用于 3D 视觉基础

提出了一种空间语言模型用于 3D 视觉定位问题，使用基于 Transformer 的架构将空间嵌入和 DistilBert 的语言嵌入结合起来进行目标对象预测，能够在 ReferIt3D 提出的数据集上表现出竞争性，可以被应用于机器人等领域的视觉任务中。

Jul, 2021

在二维环境中的交互式基于语境的语言习得和推理

基于 2D 迷宫世界，通过虚拟代理学习语言的模型，将语言的生成与理解与其他计算流程分离，从而成功地解决新单词出现的问题。模型可以解释人类可理解的中间输出结果，大幅优于其他五种比较方法。

Jan, 2018

神经符号训练用于空间语言推理

通过使用神经符号技术对语言模型进行培训，可以利用推理的逻辑规则作为约束，并为模型提供额外的监督来源，以弥补由于无法达到所需的抽象水平而在未观察到的复杂输入组合中难以提供解决方案的问题。我们聚焦于文本上的空间推理这一具有挑战性的问题，通过在多个语言模型上的多个基准测试中的结果验证了基于神经符号训练的有效领域转移假设。

Jun, 2024

多模态视觉语言模型中的基于实体的视觉空间推理

利用大规模视觉语言模型评估其在不同视觉推理任务中的性能，特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名，结合物体及其位置的核心语义来计算空间子句的最终评分，并比较不同视觉语言模型在空间关系推理方面的能力。

Aug, 2023

在模拟的 3D 世界中的基于场景语言学习

通过增强和无监督学习，训练具备最少先验知识的机器人在仿真 3D 环境中理解自然语言指令，将语言符号与周围物理环境的感知表示和相关的行动序列联系起来，实现语言含义的压缩和提取，从而揭示出关于语言基于感知概念的本质和潜力。

Jun, 2017

面向高层自然语言指令执行的持久性空间语义表示

该研究介绍了一种基于持久化空间语义表达的方法，旨在通过实现分层推理，实现机器人代理人执行自然语言指定的长期任务，获得了 ALFRED 测试中最先进的表现。

Jul, 2021

借助推理能力强化 3D 视觉定位

提出了一种新的任务称为 3D 推理定位，并引入了一个名为 ScanReason 的新基准，该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对，需要推理与定位的相互作用，进一步设计了我们的 ReGround3D 方法，由视觉中心推理模块与多模式大型语言模型（MLLM）驱动的 3D 定位模块组成，通过回顾增强几何和细节从 3D 场景中获得准确的对象位置，并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能，在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。

Jul, 2024