Sep, 2023

视频文本检索的统一粗细对齐

TL;DR通过联合考虑不同粒度的跨模态相似性,我们提出了一种统一的多粒度对齐模型UCoFiA,显著优于以前的基于CLIP方法,在多个视频-文本检索基准上表现出了2.4%,1.4%和1.3%的文本到视频检索R@1改进。