具身视觉导航的深度学习:一项综述
长期愿景是提高代理者和环境的感知、理解和交互能力,以实现具体导航的视觉 - 语言导航(VLN)作为实现具体导航的核心研究路径,关注代理者如何使用自然语言与人类进行有效沟通,接收和理解指令,并最终依靠视觉信息实现准确的导航。此综述系统回顾了 VLN 的研究进展并详细介绍了具体导航的研究方向,包括系统架构、基于方法的研究和常用基准数据集,全面分析了当前研究面临的问题和挑战,并探讨了该领域的未来发展方向,旨在为研究人员提供实用的参考。
Feb, 2024
本文研究了具体化视觉主动学习任务,该任务通过选择性的视野请求注释来探索三维环境,以获取场景理解,我们通过开发一系列智能体来研究具体化视觉主动学习,其中智能体配备语义分割网络,并使用深度强化学习以及奖励函数平衡任务性能和必要注释数据请求,得到了可靠的结果。
Dec, 2020
本文描述了一种音频 - 视觉导航方案,该方案基于移动智能机器人,利用可微卷积神经网络学习视觉感知器和声音感知器,以及动态路径规划器,实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。
Dec, 2019
利用基于模式的指令将 LLMs 整合到具有身体导航功能的第一个通用模型 NaviLLM 中,该模型在各种任务中取得了最新的成果,并在 CVDN、SOON 和 ScanQA 上的性能达到了最新发展水平。
Dec, 2023
本文探究了如何利用多传感器数据融合和最先进的机器学习算法,实现名为视觉语义导航的任务,在不需要先验环境知识的情况下使用自我中心视觉观测来到达属于目标语义类别的物体。我们的方法在 Habitat Challenge 2021 ObjectNav 的 Minival 阶段和 Test-Standard 阶段中,取得了第四名的成绩。
Jun, 2021
该研究提出一种名为 ELBA 的模型,以增强具有互动人类能力的代理,通过问答实现动态获取附加信息,以提高任务完成性能,并在 TEACH 视觉对话导航和任务完成数据集上进行了评估。
Feb, 2023
本文提出了一种基于多智能体协作的视觉语义导航方法,通过分层决策框架、场景先验知识和通信机制,可以使多个机器人协同完成探索任务,并在测试实验中表现出与单一智能体模型相比更高的准确性和效率。
Sep, 2021
本研究探讨了具有摄像机配备的机器人在新颖,非结构化环境中的感知问题,特别是如何进行视觉探索问题,提出了现有视觉探索算法的分类法并创建了一个标准框架进行基准测试。在两个超现实的 3D 环境和多种评估指标下,通过对四种状态下最先进的模式进行彻底的实证研究,为视觉探索领域提供了新的性能指标和基准。
Jan, 2020
人工智能中探讨在三维环境下的熟练的移动操作是一个主要研究主题,为了协调指南与评估协议,本文介绍了实证方法的不同问题声明及概述,介绍了评估措施和提供了可用于基准测试的标准情境。
Jul, 2018
本文介绍了一种解释具有符号感知(Embodied)的 Point Goal 和 Object Goal 导航代理的方法,即 “Interpretability System for Embodied agEnts (iSEE)”,并使用该方法对代理行为进行了分析,揭示了一些关于代理的有趣性质。
Jun, 2022