关键词vision-language navigation
搜索结果 - 20
- 通过大型模型进行视觉语言导航中的可纠正的地标发现
Vision-Language Navigation (VLN) requires the agent to align landmarks based on instruction and visual observations. Thi - CVPR视觉语言导航的体积环境表示
基于视觉观察和自然语言指令,本论文提出了一种基于体素化环境表示的视觉语言导航模型,在多任务学习的影响下,预测 3D 占用、3D 房间布局和 3D 边界框,并通过在线采集的环境表示进行体积状态估计和建立序列记忆,取得了在 VLN 基准测试(R - 零射击视觉语言导航中的思考、交互和行动框架
利用大型语言模型和 Thinking Interacting and Action 框架,本研究提出了一种用于零样本导航的导航代理,该方法提高了基于大型语言模型的代理导航的性能,并在 Room-to-Room 数据集上优于某些基于监督学习的 - 具备体验智能的视觉 - 语言导航:综述
长期愿景是提高代理者和环境的感知、理解和交互能力,以实现具体导航的视觉 - 语言导航(VLN)作为实现具体导航的核心研究路径,关注代理者如何使用自然语言与人类进行有效沟通,接收和理解指令,并最终依靠视觉信息实现准确的导航。此综述系统回顾了 - ICCV鸟瞰视角下的视觉语言导航场景图
利用 BEV 场景图编码室内环境的场景布局和几何线索以解决视觉语言导航中对于三维场景几何和全景观察选择的限制,该方法在 REVERIE、R2R 和 R4R 数据集上显著优于现有方法,展示了 BEV 感知在视觉语言导航中的潜力。
- ETPNav:连续环境下视觉语言导航的进化拓扑规划
本研究提出了 EPTNav 探索实现连续环境下视觉语言导航的方法和框架,该框架着重于生成长距离导航计划和在连续环境中进行避障控制,并利用拓扑地图和指令生成自主导航计划。实验证明该方法的有效性,并在 R2R-CE 和 RxR-CE 数据集上分 - AAAI行动原子概念学习:解析视觉语言导航
本文提出了 Actional Atomic-Concept Learning(AACL),它通过将视觉观测映射到动作原子概念来简化 Vision-Language Navigation 中的观测 - 指令对齐问题。AACL 在细粒度和高级别 - 预期视觉语言导航中未知差异
本文提出了一种 Unseen Discrepancy Anticipating Vision and Language Navigation (DAVIS) 的方法,该方法通过鼓励测试时间视觉一致性来学习到在看不见的环境下泛化。DAVIS - 面向目标的结构化 Transformer 规划器用于视觉语言导航
本文提出了一种基于目标驱动的结构化 Transformer 规划器(TD-STP)用于长期目标导向和房间布局感知的视觉语言导航任务,该规划器设计了想象场景的分词机制以及一种结构化的全局规划的神经注意力架构,并在 R2R 和 REVERIE - CVPRADAPT: 视觉语言导航中的模态对齐行动提示
本文提出了一种 Modality-Alignment Action Prompts (ADAPT) 方法,通过显式学习行动水平的模态对齐来实现对视觉环境下指令级操作的感知导航,并通过对高质量行动提示进行收集来提升对相关提示的对齐性。
- CVPR逆因果循环一致性学习在视觉语言导航中的应用
本篇研究提出了一种基于视觉 - 语言导航(VLN)的学习方法,同时学习指令生成和指令跟随任务并通过相互的协作来提高训练,包括添加一个能够生成反事实环境来提高训练效果的代理程序。在标准测试集上的实验证明,该方法提高了各种跟随模型的性能并能够生 - ACL基于提示的环境自主探索的视觉语言导航预训练
本文提出了一种基于 Prompt 的自我探索方法,通过对环境进行采样来自动生成结构化的指导,从而构建了一个无需人工标注的本地数据集,并引入基于 Prompt 的学习来提高语言嵌入的学习效率,进而大大提高了视觉 - 语言导航模型的泛化能力。
- ECCV适用于未知指令可行性的交互式视觉语言导航数据集
本文介绍了一种新的预测自然语言命令可行性的方法,该方法基于 Mobile app Tasks with Iterative Feedback (MoTIF) 数据集,该数据集普及了真实下游使用的 VLN 方法,并为不确定性任务提供后续问题以 - AAAI对比指导 - 轨迹学习用于视觉 - 语言导航
本文提出了 Contrastive Instruction-Trajectory Learning(CITL)框架,通过粗粒度的对比学习和细粒度的对比学习目标来学习视觉和语言表示,同时采用逐对样本加权机制来增强模型的鲁棒性和泛化性,该方法在 - ICCV具有随机环境混合的视觉语言导航
本文介绍了一种名为随机环境混合 (Random Environmental Mixup, REM) 的数据增广方法,其通过互换环境中的重要点来生成交叉的房屋场景并产生增广数据,从而帮助代理减少视角偏差的问题,提高了视觉语言导航任务的性能表现 - CVPR结构化场景记忆用于视觉语言导航
提出一种名为结构化场景记忆(SSM)的模型架构,通过具有采集 - 读取控制器的全面行动空间和以前视经验的编码来辅助导航决策,并实现长程推理和全局规划,证明在 R2R 和 R4R 度量标准上实现了最先进的表现。
- ECCV视觉语言导航的主动信息收集
该研究提出了一种基于人类导航行为的智能视觉语言导航策略,通过赋予代理人主动信息收集能力和学习探索策略来解决当前方法产生的不确定性问题和效率低下问题,实验证明该方法能显著提高导航性能。
- ECCV自然语言基础下跨环境多任务学习导航
本研究提出从视觉语言导航和对话历史导航两个任务中学习的多任务导航模型,同时还探索了一种用于导航策略的环境无关表示法,并证明环境无关多任务学习可以显著降低在未见过环境上的性能差距。
- 利用自监督辅助推理任务的视觉语言导航
本文提出了一种基于自我监督的辅助推理导航(AuxRN)框架,使用四个辅助推理任务来利用语义信息,通过这些额外训练信号来帮助代理获取语义表示的知识以便进行推理,进而建立对环境的全面感知,该方法在标准基准测试中实现了最佳效果,显著优于现有的最先 - CVPR强化跨模态匹配和自监督模仿学习用于视觉语言导航
本文提出 Reinforced Cross-Modal Matching 和 Self-Supervised Imitation Learning 两个方法来解决语视导航中的跨模态匹配、学习反馈以及泛化问题,并通过实验证明这两种方法较之前的