COLINGApr, 2024

DELAN: 视觉与语言导航的双层对齐:跨模态对比学习

TL;DR通过交叉模态对比学习,我们提出了一个名为 Dual-levEL AligNment (DELAN) 的框架,用于在融合之前对齐各种与导航相关的模态,从而增强交叉模态交互和决策制定。我们的方法与现有模型无缝集成,显著提高了各种 Vision-and-Language navigation 审查的导航性能。