利用未知物体构建带有标签-无标签元关系用于零样本物体导航
本文提出了一种基于语义表示的全新的Zero-Shot Learning方法,并引入了上下文因素提高了对象的分类效果,通过在Visual Genome上进行的实验表明,增加上下文信息可以显著提高标准的ZSL方法。
Apr, 2019
本文研究了在复杂的家庭环境中,物体和房间之间的内在关系是否有助于视觉导航任务中的智能体。我们通过一个新的降低训练难度的数据集提出了一种基于关注力机制的模型,该模型可以定量地利用场景和物体之间的相关性,从而能够实现导航模型的快速训练和更好的性能。
Aug, 2020
本文研究了零样本对象目标视觉导航任务,并提出了一种基于语义相似性网络的新型框架,用于在未训练过的类中引导机器人查找目标,通过在AI2-THOR平台上进行了广泛的实验,证明了我们模型的一般化能力强于基线模型。
Jun, 2022
本文提出了一种基于预训练模型和通识知识转移的全新的零样本目标导航方法,将通识知识转化为导航行为的软逻辑谓词,实现了在未知环境中的目标导航,并获得了比其他基线模型更好的实验结果。
Jan, 2023
本文提出了一种新算法LGX,采用“语言驱动、零-shot方式”的方法使机器人导航到一个在以前未被探索的环境中描述的目标对象,利用大型语言模型(LLMs)的能力将环境的语义上下文隐式知识映射为机器人运动规划的连续输入来做出导航决策,并同时利用经过预训练的视觉语言接地模型进行一般化目标对象检测,在RoboTHOR上实现了最新的零-shot目标导航结果,成功率(SR)比OWL CoW的当前基线提高了超过27%,同时,我们还研究了利用LLMs进行机器人导航的用途,并分析了影响模型输出的各种语义因素,最后通过真实世界实验展示了LGX方法的优越性能,可有效导航和检测视觉上独特的对象。
Mar, 2023
本研究探讨了无目标目标视觉导航问题。我们提出了一种称为无类关系网络(CIRN)的方法,将目标检测信息与目标与导航目标之间的相对语义相似性结合起来,构建了一种基于相似性排名的全新状态表示,有效地将智能体的导航能力与目标特征分离。我们的方法在AI2-THOR虚拟环境中的广泛实验中表现出了强大的泛化能力,包括使用不同目标和环境的零样本导航任务。同时,我们在更具挑战性的跨目标和跨场景设置中进行了实验证明了我们方法的稳健性和泛化能力。
Oct, 2023
我们提出了OpenFMNav,一种基于开放集对象导航的零样本模型,通过利用大型语言模型和视觉语言模型的推理和泛化能力,能够理解自由形式的人类指令,并在各种环境中进行有效的零样本导航,通过对HM3D ObjectNav基准测试的广泛实验,证明了我们方法的有效性,并通过真实机器人演示验证了这种方法对真实环境的开放性和泛化能力。
Feb, 2024
零射对象导航(ZSON)需要在陌生环境中自主定位和接近看不见的物体,它是体验智能领域中的一项特别具有挑战性的任务。我们提出了一个在动态环境中进行开放词汇的零射对象导航数据集(DOZE),包括十个高保真度的3D场景及超过18,000个任务,旨在模拟复杂的实际情景。通过在DOZE场景中引入多个移动人形障碍物、大量的开放词汇物体、具有多样属性的物体和有价值的文本提示,我们解决了现有数据集在动态环境中的冲突检测方面的局限性。我们在DOZE上测试了四种有代表性的ZSON方法,揭示了现存方法在导航效率、安全性和物体识别准确性方面还有很大改进空间。
Feb, 2024
本文介绍LOC-ZSON,一种用于复杂场景中物体导航任务的新颖语言驱动的面向物体的图像表示方法。我们提出了一种面向物体的图像表示和对应的损失函数,用于视觉语言模型(VLM)的微调,能够处理复杂的物体级别查询。此外,我们设计了一种基于LLM的增强和提示模板,以提高训练过程的稳定性和零样本推理的效果。我们在Astro机器人上实施了这种方法,并在模拟和现实世界环境中进行了零样本物体导航。我们展示了我们提出的方法在不同的基准设置下,在文本到图像检索任务中可以实现1.38-13.38%的改进。对于物体导航,我们展示了我们的方法在模拟和现实世界中的优势,分别取得了5%和16.67%的导航成功率的改进。
May, 2024