May, 2024

编码和控制长篇视频问答的全球语义

TL;DR通过引入状态空间层(SSL)到多模态转换器,有效整合视频的全局语义,以提高长格式视频问答(videoQA)的性能,并通过引入跨模态组合一致性(C^3)目标来增强对全局语义与问题之间对齐的可控性。通过创建两个新的基准测试数据集 Ego-QA 和 MAD-QA,分别包含长达 17.5 分钟和 1.9 小时的视频,对长格式视频 QA 能力进行严格评估,实验结果表明我们的框架在这些新的和现有数据集上具有优势。