基于地点实体的自适应预训练技术用于视觉与语言导航

ICCVAug, 2023

基于地点实体的自适应预训练技术用于视觉与语言导航

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

Yibo Cui, Liang Xie, Yakun Zhang, Meishan Zhang, Ye Yan...

TL;DR我们提出了一种新颖的基于实体 - 地标适应的预训练模型 (GELA)，用于实现细粒度的视听导航中不同模态信号的对齐。采用三个适应性预训练目标：实体短语预测，地标边界框预测和实体 - 地标语义一致性，该模型在两个任务中实现了最先进的结果，证明了其有效性和普适性。

Abstract

cross-modal alignment is one key challenge for vision-and-language navigation (VLN). Most existing studies concentrate on mapping the global instruction or single sub-instruction to the corresponding trajectory.

cross-modal alignment vision-and-language navigation grounded entity-landmark adaptive pre-training fine-grained cross-modal alignment entity-landmark semantic alignment

发现论文，激发创造

DELAN: 视觉与语言导航的双层对齐：跨模态对比学习

通过交叉模态对比学习，我们提出了一个名为 Dual-levEL AligNment (DELAN) 的框架，用于在融合之前对齐各种与导航相关的模态，从而增强交叉模态交互和决策制定。我们的方法与现有模型无缝集成，显著提高了各种 Vision-and-Language navigation 审查的导航性能。

Apr, 2024

通过预训练实现通用的视觉语言导航智能体学习

本文提出了第一个预训练和微调范式，用于视觉语言导航 (VLN) 任务。通过自监督学习方式训练大量的图像 - 文本 - 动作三元组，预训练模型提供通用的视觉环境和语言指令表示，可以轻松地用于现有的 VLN 框架。通过在三个 VLN 任务上验证性能可行性，验证了该方法的有效性和推广性。

Feb, 2020

在无标注三维环境中学习视觉语言导航

本研究提出通过使用 900 个未标记的 3D 建筑从 HM3D 中自动创建 VLN 数据集，并通过预训练的语言模型对数据集进行微调，从而解决 VLN 方法中的数据稀缺性问题，从而大幅提高 VLN 模型的泛化能力。实验表明该方法在 REVERIE 和 SOON 数据集验证数据集上提高了 7.1% 和 8.1% 的 SPL 性能，取得了良好效果。

Aug, 2022

强化跨模态匹配和自监督模仿学习用于视觉语言导航

本文提出 Reinforced Cross-Modal Matching 和 Self-Supervised Imitation Learning 两个方法来解决语视导航中的跨模态匹配、学习反馈以及泛化问题，并通过实验证明这两种方法较之前的方法显著提高了成功率和准确度。

Nov, 2018

视觉语言导航的多模态判别模型

本论文提出了一种使用多模态对齐的鉴别器来评估视觉和语言导航任务中的自然语言指令，以及通过预训练组件暖启动 VLN 代理以改善其在以前看不见的环境中的表现的方法。

May, 2019

视觉语言导航中可转移的表征学习

我们的方法将预先训练的视觉和语言表示技术适应于相关领域的任务，通过在跨模态序列对齐和序列一致性任务中适应这些表示技术，从而提高了在 Room-to-Room（R2R）带权路径成功率（SPL）度量方面的性能。

Aug, 2019

通过语义更丰富的指令来弥补 VLN 中的视觉差距

本文介绍了数据扩充方法以改善现有的人工智能模型在 VLN 任务中性能表现不佳的问题，该方法利用了 Matterport3D 数据集中的元数据信息来引导新的导航指令的生成，并在未见过的环境中使性能提高了 8%。

Oct, 2022

双语义感知循环全局自适应网络：用于视觉和语言导航

该论文提出了一种双语义感知递归全局自适应网络（DSRG），包括指导语言模块和外貌 - 语义视觉模块，用于视觉和语言语义学习，以及全球自适应聚合模块和递归记忆融合模块，用于对全景观测进行显式内存融合。虽然在 R2R 和 REVERIE 数据集上进行了广泛的实验，并证明该方法的实际性和有效性高于现有方法。

May, 2023

人类感知视觉 - 语言导航：通过动态人类交互缩小模拟与现实之间的鸿沟

Vision-and-Language Navigation involves developing embodied agents that navigate based on human instructions. This paper introduces Human-Aware Vision-and-Language Navigation by incorporating dynamic human activities and relaxing key assumptions, utilizing the HA3D simulator, HA-R2R dataset, Expert-Supervised Cross-Modal, and Non-Expert-Supervised Decision Transformer agents for effective navigation in dynamic human environments.

Jun, 2024

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022