Oct, 2021

SOAT: 一种面向场景和对象感知的视觉语言导航变换器

TL;DR本论文提出了一个基于 transformer 的视觉与语言导航(VLN)代理,使用两种不同的视觉编码器,即场景分类网络和对象检测器,它们能匹配这两种不同类型的视觉提示,进而通过视觉和语言的预训练实现通向 Room-to-Room(R2R)和 Room-Across-Room(RxR)存在显著改进的效果。