CVPRJun, 2024

通过剧本进行零样本长片视频理解

TL;DRMM-Screenplayer 是一种先进的视频理解系统,具备多模态感知能力,可以将任何视频转换为文本剧本表示形式。与以往的故事叙述方法不同,我们将视频内容以场景为基本单位进行组织,而不仅仅是视觉连续的镜头。此外,我们开发了一种 “回溯” 策略来重新评估和验证不确定信息,特别针对断点模式。MM-Screenplayer 在 CVPR'2024 Long-form Video Understanding(LOVEU)Track 1 挑战中取得了最高分,全球准确率为 87.5%,断点准确率为 68.8%。