CVPRMar, 2021

快与慢的思考:利用 Transformer 进行高效的文本 - 图像检索

TL;DR本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在 Flickr30K 图像数据集和 VATEX 视频数据集上验证了该方法。