Jun, 2024

超越原始视频:利用大型多模态模型理解编辑视频

TL;DR在本文中,我们针对社交媒体的编辑短视频构建了一个视频问答基准(称为 EditVid-QA),涵盖了四个典型的编辑类别,即特效、搞笑、网络迷因和游戏。我们的研究表明,现有的视频 LMMs 在编辑视频上表现较差,存在领域差距。为了提高 LMMs 的泛化能力,我们以 Panda-70M/WebVid 原始视频和小规模的 TikTok/CapCut 编辑视频为基础,收集了所提出基准的训练集,从而提升了在 EditVid-QA 基准上的性能。同时,我们还发现了现有评估协议中的一个严重问题,即使用 GPT-3.5 judge 的 “sorry” 攻击,为了避免这种攻击,我们使用了 GPT-4 judge 和关键词过滤来评估结果。该数据集仅供学术目的发布。