CVPRDec, 2022

Cap4Video: 文本 - 视频检索中辅助字幕的作用

TL;DR本文提出了一种基于 zero-shot video captioning 和 cross-modal feature interaction 的 text-video retrieval 方法,即 Cap4Video,该方法通过增强视频表示和 Input data、Intermediate feature interaction、Output score 三种方式来利用生成的与视频关联的字幕进行 text-video retrieval。经验证,该方法在 MSR-VTT、VATEX、MSVD 和 DiDeMo 四个标准数据集上的表现达到了 state-of-the-art 水平。