Jun, 2024

MLLM 作为视频叙述者:减轻视频片段检索中的模态不平衡

TL;DR利用多模态大型语言模型 (MLLM) 的视觉文本理解能力,本研究以 MLLM 作为视频的叙述者,生成视频的文本描述,从而减少模态不平衡并提高时间定位的准确性。通过获取视频每个时间戳的文本叙述并构建带有时间信息的结构化文本段落,与视觉内容进行时间对齐。然后,将时间感知的叙述和相应的视频时间特征进行跨模态特征融合,生成语义增强的视频表示序列用于查询定位。接下来,引入了一种单模态的叙述 - 查询匹配机制,鼓励模型从上下文连贯的描述中提取互补信息,以改善检索效果。该方法在两个基准测试上进行了广泛实验,证明了其有效性和普适性。