Jul, 2022

ALADIN:用于高效图像-文本匹配和检索的细粒度对齐分数压缩

TL;DR本文提出了一种名为ALADIN的图文匹配方法,该方法通过精细的图像文本层次对齐产生高效得分,并通过蒸馏从层次对齐中获得的相关性得分,学习共享的嵌入空间,可在近乎90倍的速度下与最先进的VL Transformer网络相竞争,具有横跨视觉和语言的领先地位。