GAOKAO-MM: 中国多模态模型评估的人类水平基准
该研究介绍了 MMT-Bench,这是一个综合性评估基准,旨在评估大规模视觉 - 语言模型(LVLM)在多种跨领域的多模态任务上的能力,并促进下一代通用多模态智能基础模型的发展。
Apr, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于 LLM 中的世界知识。2)在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题,我们提出了 MMStar,这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM,以评估它们的多模态能力,并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
CMMMU 是一个新的中国大规模多学科多模态理解基准,旨在评估大型多模态模型在中国语境中对要求大学级学科知识和深思熟虑推理的任务上的表现,并推动下一代 LMMs 的发展。
Jan, 2024
本研究通过引入 AlignMMBench,一个专门为新兴的中文视觉 - 语言模型设计的综合对齐基准,从真实场景和中国互联网来源精心策划,并包括三个类别中的十三个具体任务,以及单轮和多轮对话场景。通过结合一个提示重写策略,AlignMMBench 包括 1054 个图像和 4978 个问答对。为了促进评估流程,我们提出了 CritiqueVLM,一个超越 GPT-4 评估能力的规则校准评估器。最后,我们报告了 AlignMMBench 上代表性 VLM 的性能,提供了不同 VLM 架构的能力和限制的见解。
Jun, 2024
该研究论文提出了一种新的知识驱动图像问答(KNVQA)评估方法,以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题,并开发了相应的 KNVQA 数据集进行评估,从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。
Nov, 2023
多模态大型语言模型在理解和推理能力方面取得了显著进展,但领域专有知识的掌握仍然是一个挑战。因此,作者提出了一个名为 CMMU 的新型基准,用于测试多模态和多类型问题的理解和推理,这个基准是专为中文而设计的。研究结果表明,CMMU 对近期的多模态大型语言模型构成了重要挑战。
Jan, 2024
为了追求人工通用智能(AGI),将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型(MLLMs)的出现,如 GPT-4V,扩展了人工智能应用程序,与人脑的多模态能力相匹配。然而,评估 MLLMs 的有效性面临着重大挑战,因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询,并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题,我们引入了 MLLM-Bench,这是一个受 Vicuna 启发的创新基准,涵盖了各种场景,包括感知、理解、应用、分析、评估和创作,以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验,并提供了对模型性能更全面的评估。对比评估结果表明,现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为,MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。
Nov, 2023
大视觉语言模型在专业任务和通用任务中的效能进行综合评估,发现它们在专业任务和通用任务中均表现有限,可能的因素包括专业任务认知有限、物体幻觉、文本与图像的干扰以及在复杂问题中的鲁棒性降低。
Mar, 2024
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023
我们介绍了 MMMU:一个新的基准,旨在评估多模态模型在需要大学级学科知识和深思熟虑的大规模跨学科任务上的表现。MMMU 包括来自大学考试、测验和教科书的 11500 个精心收集的多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。这些问题涵盖 30 个学科和 183 个子领域,包括 30 种高度异质的图像类型,如图表、图示、地图、表格、乐谱和化学结构。与现有基准不同,MMMU 侧重于使用领域特定知识进行高级感知和推理,挑战模型执行类似于专家面临的任务。我们对 14 个开源 LMM 和专有的 GPT-4V (ision) 进行了评估,突显了 MMMU 所带来的巨大挑战。即使是先进的 GPT-4V 只能达到 56%的准确率,表明有很大的改进空间。我们相信 MMMU 将推动社区构建面向专家人工通用智能的下一代多模态基础模型。
Nov, 2023