ACLMar, 2021

LightningDOT:用于实时图像文本检索的视觉 - 语义嵌入的预训练

TL;DR本文提出了一种名为 LightningDOT 的方法,通过三个新颖的学习目标进行预训练,在不损失准确性的情况下通过去除跨模态注意力实现图像文本检索的加速,有效提高了检索速度,其中 LightningDOT 在多个检索基准测试中均取得了新的最优状态,超过了消耗 1000 倍计算时间的现有预训练模型。