通过对空间配置进行推理实现导航
本文提出了一个在模拟环境中进行空间推理的模型,使用强化学习和广义值迭代方法进行训练,取得了目标定位误差减少 45% 的成果。模型以指令文本为引导,学习世界的表示,对语言和环境进行联合推理,实现了本地邻域与对应词汇的精准对齐,同时处理指令中的全局参照。
Jul, 2017
本文提出了一个系统,用于生成和理解机器人交互设置中的动态和静态空间关系。机器人使用涵盖如 “跨越” 和 “在前面” 等空间关系的英语短语描述移动方块的环境。我们在机器人之间进行了系统评估,展示了该系统可以稳健处理视觉感知错误、语言遗漏和不符合语法的话语。
Jul, 2016
本篇论文研究了通过导航和空间推理任务共同推理语言和视觉的问题,介绍了 Touchdown 任务和数据集,通过真实的城市环境中的导航指令和自然语言来寻找隐藏在目标位置的物体。数据集包含 9,326 个英文指令和空间描述的示例,经验性分析表明,数据对现有方法提出了开放性的挑战,定性的语言分析表明,与相关资源相比,数据利用了更丰富的空间推理。
Nov, 2018
本文提出了一种通过主动学习生成语义地图的框架,在未知环境下实现目标物体导航,通过在未观察区域内的语义类别的不确定性进行决策,实现了对场景中语义优先级的学习,并在 Matterport3D 数据库上验证了改进的导航效果。
Jun, 2021
我们提出了一种新颖的导航特定的视觉表示学习方法,通过对比代理的自我中心视图和语义地图(Ego$^2$-Map),将地图中的紧凑且丰富的信息转移到代理的自我中心表示中,从而实现室内导航。我们的实验结果表明,采用我们学习到的表示的代理在目标导航中优于最近的视觉预训练方法,并且我们的表示显著改善了连续环境下的视觉和语言导航,在高级和低级行动空间上均取得了 47%的 SR 和 41%的 SPL 的最新最佳结果。
Jul, 2023
本论文提出一种文本条件化的关系网络模型,通过跨模态的注意力机制动态计算参数以捕获实体之间的精细空间关系,从而实现对文本中空间参照的理解,具有可解释性和鲁棒性,在三个任务中实现了 17% 和 15% 的表现改进,从而解决了在自主导航和机器人控制中学习空间概念表示的关键挑战。
May, 2020
该论文提出了一种基于 Hierarchical Spatial Proximity Reasoning(HSPR)模型的视觉语言导航算法,通过引入 Scene Understanding Auxiliary Task(SUAT)来构建空间接近性知识库,利用 Multi-step Reasoning Navigation Algorithm(MRNA)进行路径规划,并通过引入 Proximity Adaptive Attention Module(PAAM)和 Residual Fusion Method(RFM)提高导航决策的准确性。实验证明了该方法的有效性。
Mar, 2024
利用大规模视觉语言模型评估其在不同视觉推理任务中的性能,特别是在理解空间关系方面的能力的研究。通过细粒度的组合性先验来解决空间关系推理任务的评估和排名,结合物体及其位置的核心语义来计算空间子句的最终评分,并比较不同视觉语言模型在空间关系推理方面的能力。
Aug, 2023
本文提出了一个新的学习框架,使得机器人可以成功地遵循自然语言路线指令,而无需任何先前环境的知识。该算法利用通过命令传达给机器人的空间和语义信息来学习关于空间扩展环境的度量和语义属性的分布,并将自然语言指令解释为关于预期行为的分布。通过对地图和状态分布进行推理,使用模仿学习的新型置信空间规划器直接求解策略,我们在可声控轮椅上评估了我们的框架。结果表明,通过学习和推理潜在的环境模型,该算法能够成功地遵循新颖的扩展环境中的自然语言路线指令。
Mar, 2015