AutoEval-Video：一个用于评估开放式视频问答中大型视觉语言模型的自动化基准

Nov, 2023

AutoEval-Video：一个用于评估开放式视频问答中大型视觉语言模型的自动化基准

AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering

PDF

Xiuyuan Chen, Yuan Lin, Yuchen Zhang, Weiran Huang

TL;DR我们提出了一个新颖且具有挑战性的基准，AutoEval-Video，以全面评估开放式视频问答中的大规模视觉语言模型。

Abstract

We propose a novel and challenging benchmark, autoeval-video, to comprehensively evaluate large vision-language models in open-ended video question answering. The comprehensiveness of →

autoeval-video video question answering large vision-language models evaluation gpt-4v(ision)

发现论文，激发创造

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Nov, 2023

VideoVista: 视频理解和推理的通用基准测试

通过提供综合评估多模态大型模型在视频理解和推理中的性能的全方位评估基准 VideoVista，本文揭示了视频 LMM 面临的困难、推理能力的不足以及开源视频 LMM 的性能低于 GPT-4o 和 Gemini-1.5 的问题，强调了 VideoVista 在推进精确理解视频和执行精准推理的 LMM 中的关键作用。

Jun, 2024

利用大型语言模型改进自动 VQA 评估

借助大型语言模型的上下文学习能力，我们提出了一个更好的 VQA 评估指标，该指标在多个 VQA 模型和基准测试中与人类判断更好地相关，希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。

Oct, 2023

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

EvalCrafter: 大规模视频生成模型的基准测试和评估

对于图像和语言生成模型的视觉和语言生成模型，我们提出了一种新的框架和流程来彻底评估生成视频的性能，并通过系数对齐目标度量与用户意见，以获得模型的最终排行榜。

Oct, 2023

MMBench-Video：一种用于整体视频理解的长形多镜头基准

通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现，该评估基准充分考虑视频内容，并充分评估模型的时间理解能力，从而为改进大规模视觉语言模型的评估提供了有价值的资源，促进了视频理解领域的进展。

Jun, 2024

开放式词汇视频问答：评估视频问答模型的通用性的新基准

提出了 Open-vocabulary Video Question Answering（OVQA）基准测试，旨在通过考虑罕见和未知的答案来衡量 VideoQA 模型的泛化能力，并引入一种改进了模型泛化能力的新型 GNN-based soft verbalizer。

Aug, 2023

Video-ChatGPT: 通过大型视觉和语言模型实现详细视频理解

介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型，用于理解和生成关于视频的人类对话，并介绍了使用手动和半自动管道获得的新数据集，可用于训练和评估基于视频的对话模型，并在定量评估框架下分析了该模型的优劣。

Jun, 2023