May, 2023

PASTS: 基于进展感知的时空变换演说家,用于视觉语言导航

TL;DR通过使用进度感知的时空转换演讲者模型(PASTS),该研究使用 transformer 作为网络的核心,提出了一种改进视觉和语言导航(VLN)性能的技术,该模型具有灵活性,可与现有的 VLN 模型结合使用,实验结果显示,PASTS 优于所有现有的演讲者模型,并成功提高了前期 VLN 模型的性能,在标准 R2R 数据集上实现了最先进的性能。