ICCVSep, 2023
视频文本检索的统一粗细对齐
Unified Coarse-to-Fine Alignment for Video-Text Retrieval
Ziyang Wang, Yi-Lin Sung, Feng Cheng, Gedas Bertasius, Mohit Bansal
TL;DR通过联合考虑不同粒度的跨模态相似性,我们提出了一种统一的多粒度对齐模型 UCoFiA,显著优于以前的基于 CLIP 方法,在多个视频 - 文本检索基准上表现出了 2.4%,1.4%和 1.3%的文本到视频检索 R@1 改进。