Feb, 2023
通向可泛化的视频片段检索:通过将视觉动态注入到图像-文本预训练中实现
Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training
TL;DR研究探究了大规模图文数据中的多模态相关性,并提出了一种通用方法Visual-Dynamic Injection(VDI)来增强模型对视频时刻的理解及视觉动态信息的提取,从而更准确地进行视频-文本对齐,该方法在现有VMR方法的基础上取得了显著的进展。