MMWorld: 视频中多学科多方面世界模型评估之路

Jun, 2024

MMWorld: 视频中多学科多方面世界模型评估之路

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu...

TL;DR多模态语言模型 (MLLMs) 在解释和推理复杂的现实世界动态方面展示出新兴的 “世界模型” 的能力。为了评估这些能力，我们提出视频是理想的媒介，因为它们包含了丰富的现实世界动态和因果关系的表示。为此，我们引入了 MMWorld，一个新的多学科、多方面的多模态视频理解基准。MMWorld 通过两个独特的优势与以前的视频理解基准有所区别：（1）多学科，涵盖各种通常需要领域专业知识才能全面理解的学科；（2）多方面的推理，包括解释、反事实思考、未来预测等。MMWorld 包括一个人工标注的数据集，用于评估 MLLMs 对整个视频的问题，并包括一个用于分析 MLLMs 的单一感知模态的合成数据集。总计 MMWorld 涵盖了 7 个广泛的学科和 69 个子学科的 1,910 个视频，并配有 6,627 个问题 - 答案对和相关字幕。评估包括 2 个专有和 10 个开源的 MLLMs，在 MMWorld 上表现不佳（例如，GPT-4V 的准确率仅为 52.3%），显示了改进的空间。进一步的消融研究揭示了模型与人类不同的技能组合。我们希望 MMWorld 能成为在视频中评估世界模型的关键一步。

Abstract

Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce →

multimodal language models mmworld video understanding world model evaluation benchmark

发现论文，激发创造

WorldQA：通过长链推理在视频中实现多模态世界知识

多模态信息和知识对我们理解复杂动态的世界至关重要。本文介绍了一个名为 WorldQA 的视频理解数据集，旨在推动多模态世界模型的发展，并通过引入多种观点挑战模型的能力。通过 WorldRetriever，介绍了一种将专家知识综合整理为连贯推理链条的方法，以便准确回答 WorldQA 的问题。研究还发现了多个关键见解，其中包括模型的推理和理解能力的进一步发展的必要性。希望 WorldQA、方法学以及这些见解可以为多模态世界模型的未来发展做出贡献。

May, 2024

Video-MME: 多模式语言模型在视频分析中的首个综合评估基准

在这篇论文中，我们介绍了 Video-MME，这是第一个全方位的、多模式评估基准测试，用于评估 MLLMs 在视频分析中的性能。我们通过多种视频类型、持续时间的长短、多模态数据输入和精确的注释来评估多种 MLLMs，并发现商业模型 Gemini 1.5 Pro 的性能最佳，明显优于开源模型。我们的研究数据集以及这些发现强调了处理更长序列和多模态数据的进一步改进的需求。

May, 2024

WorldGPT: 以语言模型为基础的多模态世界模型

构建于多模式大型语言模型（MLLM）之上的通用世界模型 WorldGPT，通过分析各领域的数百万个视频，使其理解世界动态。为了进一步增强 WorldGPT 在专门场景和长期任务中的能力，我们还将其与一种结合了内存卸载、知识检索和上下文反思的新型认知架构进行了集成。通过在涵盖各种现实情境的多模式状态转换预测基准 WorldNet 上进行评估，直接展示了 WorldGPT 准确建模状态转换模式的能力，确认其在理解和预测复杂情境动态方面的有效性。我们进一步探索了 WorldGPT 作为世界模拟器的潜力，通过高效合成多模式指令实例，帮助多模式代理在不熟悉的领域进行泛化，被证明与真实数据一样可靠用于微调目的。项目可在 https://github.com/DCDmllm/WorldGPT 找到。

Apr, 2024

探究多模态 LLMs 作为驾驶世界模型

我们评估了多模态大型语言模型（MLLMs）在自动驾驶领域的应用，并挑战和验证了一些常见假设，重点关注它们在封闭环控制环境下通过图像 / 帧序列来推理和解释动态行驶情景的能力。我们的研究揭示了这些模型在预测复杂、动态的驾驶环境中存在的不足，对于描绘动态行为的帧之间能否综合连贯的叙述或逻辑序列存在很大困难。我们通过使用专门设计的模拟器 DriveSim 生成多样化的驾驶情景，进行了一项全面的实验研究来评估各种 MLLMs 作为驾驶世界模型的能力，并为评估驾驶中的 MLLMs 贡献了全面的开源代码和一个新数据集 “Eval-LLM-Drive”。我们的研究结果突出了当前领先的 MLLMs 在真实动态环境中应用能力上的重要差距，强调了需要改进基础模型以提高其在真实世界动态环境中的适用性。

May, 2024

MM-Soc: 社交媒体平台上多模态大型语言模型的基准测试

社交媒体是多模态信息交流的中心，包括文本、图片和视频，这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc，一个综合性基准，旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估，我们发现了重要的性能差异，突出了模型在社交理解能力方面的改进需求。

Feb, 2024

MMMU: 一个专家级通用人工智能的大规模多学科多模态理解与推理基准

我们介绍了 MMMU：一个新的基准，旨在评估多模态模型在需要大学级学科知识和深思熟虑的大规模跨学科任务上的表现。MMMU 包括来自大学考试、测验和教科书的 11500 个精心收集的多模态问题，涵盖六个核心学科：艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。这些问题涵盖 30 个学科和 183 个子领域，包括 30 种高度异质的图像类型，如图表、图示、地图、表格、乐谱和化学结构。与现有基准不同，MMMU 侧重于使用领域特定知识进行高级感知和推理，挑战模型执行类似于专家面临的任务。我们对 14 个开源 LMM 和专有的 GPT-4V (ision) 进行了评估，突显了 MMMU 所带来的巨大挑战。即使是先进的 GPT-4V 只能达到 56％的准确率，表明有很大的改进空间。我们相信 MMMU 将推动社区构建面向专家人工通用智能的下一代多模态基础模型。

Nov, 2023

MM-BigBench：评估多模态模型在多模态内容理解任务上的表现

通过使用全面的评估框架 MM-BigBench，本文综合评估了 20 个语言模型（包括 14 个多模态大型语言模型）在 14 个多模态数据集上的性能，并通过引入新的指标，对不同模型和指令之间的性能以及适应性进行了评估。

Oct, 2023

CMMMU: 一个中国的大型多学科多模态理解基准

CMMMU 是一个新的中国大规模多学科多模态理解基准，旨在评估大型多模态模型在中国语境中对要求大学级学科知识和深思熟虑推理的任务上的表现，并推动下一代 LMMs 的发展。

Jan, 2024

VisualWebBench：多模态 LLM 在网页理解和解释中的发展程度如何？

多模式大型语言模型在网页相关任务中表现出了很大的潜力，评估其在网页领域的性能仍然是一个挑战，因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试，其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs，如 Gemini Pro、Claude-3 系列和 GPT-4V (ision)，我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制，包括在文本丰富环境中缺乏足够的基础知识，并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源，并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。

Apr, 2024

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024