PathMMU: 一个用于理解和推理病理学的大规模多模态专业水平基准
我们介绍了 MMMU:一个新的基准,旨在评估多模态模型在需要大学级学科知识和深思熟虑的大规模跨学科任务上的表现。MMMU 包括来自大学考试、测验和教科书的 11500 个精心收集的多模态问题,涵盖六个核心学科:艺术与设计、商业、科学、健康与医药、人文社会科学和技术与工程学。这些问题涵盖 30 个学科和 183 个子领域,包括 30 种高度异质的图像类型,如图表、图示、地图、表格、乐谱和化学结构。与现有基准不同,MMMU 侧重于使用领域特定知识进行高级感知和推理,挑战模型执行类似于专家面临的任务。我们对 14 个开源 LMM 和专有的 GPT-4V (ision) 进行了评估,突显了 MMMU 所带来的巨大挑战。即使是先进的 GPT-4V 只能达到 56%的准确率,表明有很大的改进空间。我们相信 MMMU 将推动社区构建面向专家人工通用智能的下一代多模态基础模型。
Nov, 2023
CMMMU 是一个新的中国大规模多学科多模态理解基准,旨在评估大型多模态模型在中国语境中对要求大学级学科知识和深思熟虑推理的任务上的表现,并推动下一代 LMMs 的发展。
Jan, 2024
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
最近对大型语言模型 (LLMs) 和大型多模态模型 (LMMs) 的进展表明其在各种医疗应用中具有潜力,如智能医学诊断。本研究引入了综合医学专业领域的 RJUA-MedDQA 基准测试,用于全面解释各种医学报告的复杂性和专门的深入推理能力。我们设计了数据生成流程,并提出了高效的结构恢复注释 (ESRA) 方法,可显著提高注释效率并提供 26.8% 的准确率改进。通过使用 ESRA 方法生成的图像 - 文本,在 5 个能够解决中文医学问答任务的 LMMs 上进行了全面评估和少样本评估。我们对一组强大的 LLMs 进行了比较实验,发现现有的 LLMs 性能仍受限制,但与 LMMs 相比,LMMs 在低质量和多样化结构的图像上更加稳健。跨上下文和图像内容的推理具有重大挑战。希望此基准测试有助于推动多模态医学文档理解领域的研究并促进其在医疗健康领域的应用。
Feb, 2024
多模态大型语言模型在理解和推理能力方面取得了显著进展,但领域专有知识的掌握仍然是一个挑战。因此,作者提出了一个名为 CMMU 的新型基准,用于测试多模态和多类型问题的理解和推理,这个基准是专为中文而设计的。研究结果表明,CMMU 对近期的多模态大型语言模型构成了重要挑战。
Jan, 2024
使用大型多模型自动从病理报告图片中提取信息,并生成标准化报告,其中包括不同字段的数值及其准确性的置信度。提取的字段值在病理报告中具有重要的预后价值,可用于患者分层。
May, 2024
M4U 是一个用于评估多学科、多语种、多模态理解和推理能力的新型基准测试数据集,通过 extensive evaluations of 21 leading Large Multimodal Models (LMMs) and Large Language Models (LLMs),发现 GPT-4o 等领先的模型在 M4U 上的平均准确率仅为 47.6%,而且这些模型在跨语言多模态问题上表现出显著的性能降低。
May, 2024
该研究介绍了 MMT-Bench,这是一个综合性评估基准,旨在评估大规模视觉 - 语言模型(LVLM)在多种跨领域的多模态任务上的能力,并促进下一代通用多模态智能基础模型的发展。
Apr, 2024
Multi 是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs 在 Multi 上取得了显著的进展,与其他 MLLMs 相比,GPT-4V 的准确率达到了 63.7%,Multi 不仅是一个强大的评估平台,也为专家级 AI 的发展铺平了道路。
Feb, 2024
MuirBench 是一个全面的基准测试,侧重于多模式 LLM 的强大的多图像理解能力。MuirBench 由 12 个不同的多图像任务(如场景理解,排序)组成,涉及 10 个多图像关系类别(如多视图关系,时间关系)。通过评估 20 种最新的多模态 LLMs,结果显示即使在表现最佳的模型 GPT-4o 和 Gemini Pro 面对 MuirBench 时也面临挑战,准确率分别为 68.0% 和 49.3%。基于单个图像训练的开源多模态 LLMs 很难推广到多图像问题,准确率低于 33.3%。这些结果凸显了 MuirBench 的重要性,鼓励社区开发能够超越单个图像的多模态 LLMs,并提出未来改进的潜在途径。
Jun, 2024