Dec, 2023

通过有效的跨模态蒸馏弥合视觉定位的模态差距

TL;DR我们提出了一种名为 EpmVG 的多模态可视化定位的强化预训练模型框架,通过一种跨模态蒸馏机制,它能有效引入预训练模型中图像和文本的一致性信息,减少主干网络中存在的域差,从而提高了模型在可视化定位任务中的性能,实验证明我们的方法优于现有的最先进方法。