ICCVAug, 2023

基于地点实体的自适应预训练技术用于视觉与语言导航

TL;DR我们提出了一种新颖的基于实体 - 地标适应的预训练模型 (GELA),用于实现细粒度的视听导航中不同模态信号的对齐。采用三个适应性预训练目标:实体短语预测,地标边界框预测和实体 - 地标语义一致性,该模型在两个任务中实现了最先进的结果,证明了其有效性和普适性。