CVPRMar, 2024

超导 航:通过 开放 词汇 检测 和 结构 化 表示 提升 迭代 视觉语言 导航

TL;DR通过在迭代视觉语言导航(IVLN)技术中引入长期记忆,OVER-NAV 综合使用 LLMs 和开放词汇探测器来提炼关键信息、建立多模式信号之间的对应关系,并引入结构化表示 Omnigraph 和新颖的 Omnigraph 融合机制,以从 Omnigraph 中提取最相关的知识以实现更准确的导航操作。同时,OVER-NAV 在离散和连续环境下都能无缝支持,大量的实验证明了其卓越性能。