Video-MME: 多模式语言模型在视频分析中的首个综合评估基准
本文介绍了第一代 MLLM 评估基准 - MME 模型,并对 10 种先进的 MLLM 模型进行了全面评估,同时对模型优化的潜在方向进行了研究。
Jun, 2023
通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024
本文提出了一个统一的评估方法,包括字幕、问答、检索和行动识别等多个视频任务,展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现,同时也展示了一种简单的基准方法 Video-LLaVA,在评估视频 LLMs 时优于现有方法。此外,我们还在实际驾驶场景中评估了视频 LLMs 的有效性,并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法,并帮助扩展更多实际应用场景。
Nov, 2023
视频型大型语言模型(Video-LLM)的评估系统是本文提出的主题,通过建立全面的基准测试系统,评估多种任务下的 Video-LLM 能力水平,揭示当前模型在理解和分析真实世界视频方面与人类的差距,提供有价值的研究方向。
Nov, 2023
为了追求人工通用智能(AGI),将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型(MLLMs)的出现,如 GPT-4V,扩展了人工智能应用程序,与人脑的多模态能力相匹配。然而,评估 MLLMs 的有效性面临着重大挑战,因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询,并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题,我们引入了 MLLM-Bench,这是一个受 Vicuna 启发的创新基准,涵盖了各种场景,包括感知、理解、应用、分析、评估和创作,以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验,并提供了对模型性能更全面的评估。对比评估结果表明,现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为,MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。
Nov, 2023
多模态语言模型 (MLLMs) 在解释和推理复杂的现实世界动态方面展示出新兴的 “世界模型” 的能力。为了评估这些能力,我们提出视频是理想的媒介,因为它们包含了丰富的现实世界动态和因果关系的表示。为此,我们引入了 MMWorld,一个新的多学科、多方面的多模态视频理解基准。MMWorld 通过两个独特的优势与以前的视频理解基准有所区别:(1)多学科,涵盖各种通常需要领域专业知识才能全面理解的学科;(2)多方面的推理,包括解释、反事实思考、未来预测等。MMWorld 包括一个人工标注的数据集,用于评估 MLLMs 对整个视频的问题,并包括一个用于分析 MLLMs 的单一感知模态的合成数据集。总计 MMWorld 涵盖了 7 个广泛的学科和 69 个子学科的 1,910 个视频,并配有 6,627 个问题 - 答案对和相关字幕。评估包括 2 个专有和 10 个开源的 MLLMs,在 MMWorld 上表现不佳(例如,GPT-4V 的准确率仅为 52.3%),显示了改进的空间。进一步的消融研究揭示了模型与人类不同的技能组合。我们希望 MMWorld 能成为在视频中评估世界模型的关键一步。
Jun, 2024
通过引入全面的多模式视频理解基准 (MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型 (MLLMs) 的时间理解能力,并且开发了一种强大的视频 MLLM 基准模型 VideoChat2,检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。
Nov, 2023
多模式大型语言模型在网页相关任务中表现出了很大的潜力,评估其在网页领域的性能仍然是一个挑战,因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试,其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs,如 Gemini Pro、Claude-3 系列和 GPT-4V (ision),我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制,包括在文本丰富环境中缺乏足够的基础知识,并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源,并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。
Apr, 2024
MovieLLM 提出了一种新颖的框架,利用 GPT-4 和文本到图像模型生成详细的脚本和对应的视觉,从而创造出长视频的合成高质量数据。该方法通过解决数据稀缺和偏见等问题,显著提高了多模态模型对复杂视频叙事的理解能力,克服了现有数据集的限制。
Mar, 2024
通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM,本研究表明 GPT-4o 模型超过了最佳开源模型 41.42%,在 Event-Bench 上表现出 53.33 的整体准确率,优于最先进的开源模型和 GPT-4V。
Jun, 2024