AutoEval-Video:一个用于评估开放式视频问答中大型视觉语言模型的自动化基准
本文提出了一个统一的评估方法,包括字幕、问答、检索和行动识别等多个视频任务,展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现,同时也展示了一种简单的基准方法 Video-LLaVA,在评估视频 LLMs 时优于现有方法。此外,我们还在实际驾驶场景中评估了视频 LLMs 的有效性,并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法,并帮助扩展更多实际应用场景。
Nov, 2023
GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力,尽管存在一些限制,但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。
Nov, 2023
通过自动数据整理和评估,利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力,我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。
Nov, 2023
通过提供综合评估多模态大型模型在视频理解和推理中的性能的全方位评估基准 VideoVista,本文揭示了视频 LMM 面临的困难、推理能力的不足以及开源视频 LMM 的性能低于 GPT-4o 和 Gemini-1.5 的问题,强调了 VideoVista 在推进精确理解视频和执行精准推理的 LMM 中的关键作用。
Jun, 2024
借助大型语言模型的上下文学习能力,我们提出了一个更好的 VQA 评估指标,该指标在多个 VQA 模型和基准测试中与人类判断更好地相关,希望广泛采用我们的指标以更好地估计 VQA 任务的研究进展。
Oct, 2023
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
Nov, 2023
对于图像和语言生成模型的视觉和语言生成模型,我们提出了一种新的框架和流程来彻底评估生成视频的性能,并通过系数对齐目标度量与用户意见,以获得模型的最终排行榜。
Oct, 2023
通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024
提出了 Open-vocabulary Video Question Answering(OVQA)基准测试,旨在通过考虑罕见和未知的答案来衡量 VideoQA 模型的泛化能力,并引入一种改进了模型泛化能力的新型 GNN-based soft verbalizer。
Aug, 2023
介绍了基于视觉编码器与大型语言模型相结合的 Video-ChatGPT 模型,用于理解和生成关于视频的人类对话,并介绍了使用手动和半自动管道获得的新数据集,可用于训练和评估基于视频的对话模型,并在定量评估框架下分析了该模型的优劣。
Jun, 2023