MMJul, 2022

X-CLIP: 视频文本检索的端到端多粒度对比学习

TL;DR本篇论文提出了一种名为 X-CLIP 的多层次对比模型,通过 Attention Over Similarity Matrix 模块将多粒度相似度矩阵聚合到实例级别,大幅度提高了视频 - 文本检索的性能表现。在五个常用的视频文本检索数据集上,X-CLIP 相较于之前最先进的模型提升了 6.3%至 11.1%,证明了多层次对比模型和 AOSM 模块的优越性。