Q-Bench-Video:视频质量理解的基准测试
本文讨论了在各种因素的干扰下,如何对自然视频的视频质量进行评估,构建了Maxwell数据库,并提出了MaxVQA,一种基于Vision-Language模型的视频质量评估方法。
May, 2023
本研究提出了一种新颖的多模式视频基准——“感知测试”,以评估预训练的多模态模型(如Flamingo、BEiT-3或GPT-4)的感知和推理能力,并针对记忆、抽象、物理、语义等技能和描述性、解释性、预测性、反事实等类型的推理跨越视频、音频和文本模式,提供了一种全面高效的评估工具,以探究预训练模型的迁移能力。
May, 2023
通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准,评估了多模式大型语言模型在低层视觉感知和理解方面的能力,并发现其具有基本的低层视觉技能,但这些技能仍不稳定和相对不精确,需要针对这些能力进行特定的增强。
Sep, 2023
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
Nov, 2023
通过引入全面的多模式视频理解基准(MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型(MLLMs)的时间理解能力,并且开发了一种强大的视频MLLM基准模型VideoChat2,检验结果显示VideoChat2在MVBench上的性能超过其他领先模型15%以上。
Nov, 2023
在这篇论文中,我们介绍了Video-MME,这是第一个全方位的、多模式评估基准测试,用于评估MLLMs在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种MLLMs,并发现商业模型Gemini 1.5 Pro的性能最佳,明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。
May, 2024
在本文中,我们针对社交媒体的编辑短视频构建了一个视频问答基准(称为EditVid-QA),涵盖了四个典型的编辑类别,即特效、搞笑、网络迷因和游戏。我们的研究表明,现有的视频LMMs在编辑视频上表现较差,存在领域差距。为了提高LMMs的泛化能力,我们以Panda-70M/WebVid原始视频和小规模的TikTok/CapCut编辑视频为基础,收集了所提出基准的训练集,从而提升了在EditVid-QA基准上的性能。同时,我们还发现了现有评估协议中的一个严重问题,即使用GPT-3.5 judge的“sorry”攻击,为了避免这种攻击,我们使用了GPT-4 judge和关键词过滤来评估结果。该数据集仅供学术目的发布。
Jun, 2024
通过引入MMBench-Video来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024
理解长视频的困难和挑战,现有的基准测试主要关注较短的视频片段。为了弥补这一差距,我们引入了InfiniBench,这是一个全面的、针对非常长视频理解的基准测试,它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估,我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。
Jun, 2024
本研究解决了当前视频质量评估(VQA)算法在复杂空间和时间扭曲下面临的挑战。我们提出了首个大型多模态视频质量评估模型(LMM-VQA),通过将质量回归问题重新表述为问答任务,并设计时空视觉编码器来提取空间和时间特征,从而提高VQA的性能。实验结果表明,LMM-VQA在五个VQA基准测试中达到了最先进的性能,展现出5%的泛化能力提升。
Aug, 2024