Jun, 2024

基于多粒度和多模态特征交互的文本视频检索方法

TL;DR我们提出了一种名为MGFI的新型多粒度特征交互模块,包括文本帧和词帧,用于视频文本表示对齐,以及一种名为CMFI的文本和音频的跨模态特征交互模块,用于解决视频中帧表达不足的问题。实验结果表明,所提出的方法优于现有的最先进方法。