Q-Bench-Video：视频质量理解的基准测试

Sep, 2024

Q-Bench-Video：视频质量理解的基准测试

Q-Bench-Video: Benchmarking the Video Quality Understanding of LMMs

Zicheng Zhang, Ziheng Jia, Haoning Wu, Chunyi Li, Zijian Chen...

TL;DR本研究针对大模态模型（LMMs）在视频质量理解方面的不足，通过引入Q-Bench-Video基准，系统评估其识别视频质量的能力。研究采用多样的视频源和新的评估维度，发现LMMs对视频质量的理解存在显著的差距，强调了进一步研究的重要性。

Abstract

With the rising interest in research on Large Multi-modal Models (LMMs) for video understanding, many studies have emphasized general video comprehension capabilities, neglecting the systematic exploration into Video Qu

发现论文，激发创造

实现现场视频质量评估的可解释性方法：数据库和基于语言提示的方法

本文讨论了在各种因素的干扰下，如何对自然视频的视频质量进行评估，构建了Maxwell数据库，并提出了MaxVQA，一种基于Vision-Language模型的视频质量评估方法。

May, 2023

感知测试：多模式视频模型的诊断基准

本研究提出了一种新颖的多模式视频基准——“感知测试”，以评估预训练的多模态模型（如Flamingo、BEiT-3或GPT-4）的感知和推理能力，并针对记忆、抽象、物理、语义等技能和描述性、解释性、预测性、反事实等类型的推理跨越视频、音频和文本模式，提供了一种全面高效的评估工具，以探究预训练模型的迁移能力。

May, 2023

Q-Bench：针对低级视觉的通用基准模型基准

通过构建低层视觉感知、低层视觉描述和视觉质量评估三个领域的综合基准，评估了多模式大型语言模型在低层视觉感知和理解方面的能力，并发现其具有基本的低层视觉技能，但这些技能仍不稳定和相对不精确，需要针对这些能力进行特定的增强。

Sep, 2023

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准(MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型(MLLMs)的时间理解能力，并且开发了一种强大的视频MLLM基准模型VideoChat2，检验结果显示VideoChat2在MVBench上的性能超过其他领先模型15%以上。

Nov, 2023

Video-MME: 多模式语言模型在视频分析中的首个综合评估基准

在这篇论文中，我们介绍了Video-MME，这是第一个全方位的、多模式评估基准测试，用于评估MLLMs在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种MLLMs，并发现商业模型Gemini 1.5 Pro的性能最佳，明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。

May, 2024

超越原始视频：利用大型多模态模型理解编辑视频

在本文中，我们针对社交媒体的编辑短视频构建了一个视频问答基准（称为EditVid-QA），涵盖了四个典型的编辑类别，即特效、搞笑、网络迷因和游戏。我们的研究表明，现有的视频LMMs在编辑视频上表现较差，存在领域差距。为了提高LMMs的泛化能力，我们以Panda-70M/WebVid原始视频和小规模的TikTok/CapCut编辑视频为基础，收集了所提出基准的训练集，从而提升了在EditVid-QA基准上的性能。同时，我们还发现了现有评估协议中的一个严重问题，即使用GPT-3.5 judge的“sorry”攻击，为了避免这种攻击，我们使用了GPT-4 judge和关键词过滤来评估结果。该数据集仅供学术目的发布。

Jun, 2024

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入MMBench-Video来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

InfiniBench：用于非常长视频理解的大规模多模态模型综合基准测试

理解长视频的困难和挑战，现有的基准测试主要关注较短的视频片段。为了弥补这一差距，我们引入了InfiniBench，这是一个全面的、针对非常长视频理解的基准测试，它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估，我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。

Jun, 2024

利用大型多模态模型推进视频质量评估

本研究解决了当前视频质量评估(VQA)算法在复杂空间和时间扭曲下面临的挑战。我们提出了首个大型多模态视频质量评估模型(LMM-VQA)，通过将质量回归问题重新表述为问答任务，并设计时空视觉编码器来提取空间和时间特征，从而提高VQA的性能。实验结果表明，LMM-VQA在五个VQA基准测试中达到了最先进的性能，展现出5%的泛化能力提升。

Aug, 2024