视觉与语言导航中的数据生成扩展
利用 360 度全景数据生成的合成语音引导大型模拟数据集,使用模仿学习的简单 Transformer 模型,本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。
Oct, 2022
本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集,并通过预训练的语言模型对数据集进行微调,从而解决 VLN 方法中的数据稀缺性问题,从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能,取得了良好效果。
Aug, 2022
本文介绍 Habitat Synthetic Scene Dataset 数据集,并使用该数据集测试导航代理在逼真的三维环境中的泛化能力,研究合成 3D 场景数据集规模和真实性对于训练全方位代理寻找和导航至目标对象的影响,表明在保证场景真实性的前提下规模优势逐渐缩小,数据量更小的数据集在零样本泛化方面有优势。
Jun, 2023
本文旨在研究如何将视觉 - 语言导航技术 (VLN) 从模拟场景应用于物理机器人,并提出了使用子目标模型和领域随机化等方法,以提升在未知环境下的表现。作者在 325 平方米的办公室内进行实验,结果表明,在提前采集和注释了占用图和导航图的情况下,模拟 - to - 真实的转移成功率可达 46.8%,而完全没有先前信息的情况下,转移成功率仅有 22.5%。
Nov, 2020
通过简单的文本提示、当前观察和历史收集模型,我们的方法在视觉导航中对大型语言模型进行了精细调优,训练模型使用了来自 Habitat-Matterport 3D 数据集(HM3D)的人类示范和碰撞信号,实验结果表明我们的方法优于最先进的行为克隆方法并有效地降低了碰撞率。
Oct, 2023
本研究提出从视觉语言导航和对话历史导航两个任务中学习的多任务导航模型,同时还探索了一种用于导航策略的环境无关表示法,并证明环境无关多任务学习可以显著降低在未见过环境上的性能差距。
Mar, 2020
通过对房间到房间的导航 (VLN) 基准进行研究,发现数据加工的方式很重要。我们发现最短路径采样在动作空间中编码偏见,从而解释了现有方法推广能力差的原因。为了减轻这种偏见,我们提出了一种基于随机游走的路径采样方法来增强数据,通过这种方法训练代理,其相比基线,能够更好地推广到未知环境,从而显着提高模型性能。
Mar, 2020
本文提出了一种 Unseen Discrepancy Anticipating Vision and Language Navigation (DAVIS) 的方法,该方法通过鼓励测试时间视觉一致性来学习到在看不见的环境下泛化。DAVIS 利用了相似语义观察的视觉一致性信号和两阶段学习过程来鼓励测试时间的适应,并基于强化学习与 Momentum Contrast 组合的混合模式来加强基本的模仿学习。在 R2R 和 RxR 数据集上的广泛实验表明,DAVIS 在视觉语言导航中取得了模型无关的最新进展。
Sep, 2022
导航和语言导航的现有研究主要依赖于导航相关的损失,以建立视觉和语言模态之间的联系,忽视了帮助导航代理机构建立对视觉环境的深入理解的方面。在我们的工作中,我们通过提示生成器为导航代理提供间接监督,提供详细的视觉描述。提示生成器帮助导航代理机构开发对视觉环境的整体理解,指导代理机构注意相关的导航细节,包括相关的子指导、识别的潜在挑战和限制、以及目标视点描述。为了训练提示生成器,我们根据指导中的地标和可见的与众不同的物体构建了一个合成数据集。我们在 R2R 和 R4R 数据集上评估了我们的方法,并在几个度量标准上取得了最先进的结果。实验结果表明,生成提示不仅提高了导航性能,还有助于提高代理机构行动的可解释性。
Feb, 2024
通过利用大规模的房屋导览视频数据集,本文提出了一种视觉语言导航方法,使用自动构建的路径指令对训练的代理进行预训练,并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明,该方法在两个流行的基准测试(R2R 和 REVERIE)上取得了最先进的性能。
Jul, 2023