Jul, 2022

ALADIN:用于高效图像 - 文本匹配和检索的细粒度对齐分数压缩

TL;DR本文提出了一种名为 ALADIN 的图文匹配方法,该方法通过精细的图像文本层次对齐产生高效得分,并通过蒸馏从层次对齐中获得的相关性得分,学习共享的嵌入空间,可在近乎 90 倍的速度下与最先进的 VL Transformer 网络相竞争,具有横跨视觉和语言的领先地位。