SIGIRApr, 2023

跨模态图像 - 文本检索基准的重新思考

TL;DR本文针对图文检索中的细粒度语义匹配问题,以 MSCOCO-Test-5K 和 Flickr30K-Test-1K 数据集不足的情况为背景,提出了将其重建为 MSCOCO-FG 和 Flickr30K-FG 等数据集的方法,并通过模型评估和实验指出了模型在细粒度语义理解方面的不足之处和提升空间。