ICCVSep, 2023

视频文本检索的统一粗细对齐

TL;DR通过联合考虑不同粒度的跨模态相似性,我们提出了一种统一的多粒度对齐模型 UCoFiA,显著优于以前的基于 CLIP 方法,在多个视频 - 文本检索基准上表现出了 2.4%,1.4%和 1.3%的文本到视频检索 R@1 改进。