将知识图谱与视觉感知对齐，进行物体目标导航

Feb, 2024

将知识图谱与视觉感知对齐，进行物体目标导航

Aligning Knowledge Graph with Visual Perception for Object-goal Navigation

Nuo Xu, Wen Wang, Rong Yang, Mengjie Qin, Zheyuan Lin...

TL;DR提出了一种将知识图谱与视觉感知对齐的方法，通过连续建模场景结构和利用视觉 - 语言预训练来实现更准确和一致的场景描述，从而提供了非凡的零样本导航能力。

Abstract

object-goal navigation is a challenging task that requires guiding an agent to specific objects based on first-person visual observations. The ability of agent to comprehend its surroundings plays a crucial role in achieving successful object finding. However, existing knowledge-graph-

object-goal navigation knowledge graph visual perception continuous modeling zero-shot navigation

发现论文，激发创造

增强型常识知识用于远程物体定位

通过引入增强型常识知识模型 (ACK)，利用常识信息的时空知识图，增强代理导航，通过知识图感知跨模态和概念聚合模块来提升可视化表示和可视化文本数据对齐，同时引入基于常识的决策过程，实现更准确的本地动作预测。

Jun, 2024

基于目标导向语义探索的目标导航

该研究提出了 Goal-Oriented Semantic Exploration 系统，通过构建基于目标对象类别的情节语义地图来有效探索环境，该模型在模拟环境和移动机器人平台中实现了物体目标导航的优异表现。

Jul, 2020

空间注意力视觉导航

本研究对物体目标视觉导航进行了研究，旨在通过强化学习算法学习智能体的策略。我们提出了一种新的注意概率模型来改进代理策略，并在常用数据集上取得了最先进的结果。

Apr, 2021

ViNG: 使用视觉目标学习开放世界导航

提出了一个基于学习的导航系统，该系统应用于实际移动机器人平台，旨在使机器人通过学习来了解环境和导航便利性，以便在视觉引导下实现目标点的导航，经过实地测试和应用，该系统的表现优于其他以强化学习和搜索为基础的方法。

Dec, 2020

进化图形规划器：为视觉语言导航提供上下文全局规划

本研究基于原始传感器输入，引入了进化图式计划者 (Evolving Graphical Planner，EGP) 模型，其能够以更灵活的决策空间，为导航执行全局规划，并在具有照片级真实感的图像上的 Vision-and-Language Navigation (VLN) 任务中取得了优异的性能。

Jul, 2020

通过同时探索和识别实现 3D 感知的物体目标导航

本文提出了一种基于二个子策略的框架，即角落导向探索策略和类别感知识别策略，用于提高基于 3D 场景表示的目标导航能力，从而大大改善 ObjectNav 的性能，并在 Matterport3D 和 Gibson 数据集上实现最佳表现，同时训练时的计算成本较其他模块化方法降低了 (高达 30 倍)。

Dec, 2022

具备场景先验知识的多智能体具身视觉语义导航

本文提出了一种基于多智能体协作的视觉语义导航方法，通过分层决策框架、场景先验知识和通信机制，可以使多个机器人协同完成探索任务，并在测试实验中表现出与单一智能体模型相比更高的准确性和效率。

Sep, 2021

不训练你的龙：利用语义前沿进行无需训练的物体目标导航

该篇论文介绍了一种模块化的训练免费方案，利用经典的 V-SLAM 框架构建结构化场景表示，并注入语义和统计信息，通过感知物体类别和语义信息指导智能体进行探索和导航任务。

May, 2023

零样本目标视觉导航与类独立关系网络

本研究探讨了无目标目标视觉导航问题。我们提出了一种称为无类关系网络（CIRN）的方法，将目标检测信息与目标与导航目标之间的相对语义相似性结合起来，构建了一种基于相似性排名的全新状态表示，有效地将智能体的导航能力与目标特征分离。我们的方法在 AI2-THOR 虚拟环境中的广泛实验中表现出了强大的泛化能力，包括使用不同目标和环境的零样本导航任务。同时，我们在更具挑战性的跨目标和跨场景设置中进行了实验证明了我们方法的稳健性和泛化能力。

Oct, 2023

图像目标导航的变形金刚

利用生成式 Transformer 模型，通过联合建模图像目标、摄像头观察和机器人过去的动作来预测未来的动作，从而实现对于长时间跨度的图像目标导航任务的稳健的、无需与环境实时交互的目标导向导航策略。

May, 2024