May, 2024

视觉 - 语言导航生成预训练 Transformer

TL;DR在 Vision-and-Language Navigation (VLN) 领域中,我们提出了一种基于 Transformer 的生成预训练模型(VLN-GPT),通过建模轨迹序列依赖关系来增强效率,并在训练过程中采用离线预训练和在线优化的方法,性能评估表明 VLN-GPT 超越了复杂的基于编码器的模型。