CVPRFeb, 2023

通向可泛化的视频片段检索:通过将视觉动态注入到图像 - 文本预训练中实现

TL;DR研究探究了大规模图文数据中的多模态相关性,并提出了一种通用方法 Visual-Dynamic Injection(VDI)来增强模型对视频时刻的理解及视觉动态信息的提取,从而更准确地进行视频 - 文本对齐,该方法在现有 VMR 方法的基础上取得了显著的进展。