Jan, 2024

多模式超图网络的文本视频检索

TL;DR我们提出了一种基于分块匹配的文本-视频检索方法,通过构建多模态超图和引入变分推断,实现在高阶语义空间中对文本和视频的复杂多元交互进行建模,进而提高检索性能。