Jun, 2023

高效的令牌引导下的图像文本检索与一致多模态对比性训练

TL;DR本文提出了一种基于 Token-Guided Dual Transformer (TGDT) architecture 的图像文本检索框架,将粗粒度和细粒度表示学习结合到一个统一的框架中,并提出了一种名为同步多模态对比损失的新型训练目标,通过混合全局和本地跨模态相似性的两个阶段的推理方法,实现了与代表性最新方法相比极低的推理时间下,实现了最先进的检索表现。