MMBench: 您的多模型是否是全能选手?
该研究介绍了 MMT-Bench,这是一个综合性评估基准,旨在评估大规模视觉 - 语言模型(LVLM)在多种跨领域的多模态任务上的能力,并促进下一代通用多模态智能基础模型的发展。
Apr, 2024
通过引入全面的多模式视频理解基准 (MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型 (MLLMs) 的时间理解能力,并且开发了一种强大的视频 MLLM 基准模型 VideoChat2,检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。
Nov, 2023
通过引入 MMBench-Video 来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024
通过使用全面的评估框架 MM-BigBench,本文综合评估了 20 个语言模型(包括 14 个多模态大型语言模型)在 14 个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
Oct, 2023
本研究通过引入 AlignMMBench,一个专门为新兴的中文视觉 - 语言模型设计的综合对齐基准,从真实场景和中国互联网来源精心策划,并包括三个类别中的十三个具体任务,以及单轮和多轮对话场景。通过结合一个提示重写策略,AlignMMBench 包括 1054 个图像和 4978 个问答对。为了促进评估流程,我们提出了 CritiqueVLM,一个超越 GPT-4 评估能力的规则校准评估器。最后,我们报告了 AlignMMBench 上代表性 VLM 的性能,提供了不同 VLM 架构的能力和限制的见解。
Jun, 2024
为了追求人工通用智能(AGI),将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型(MLLMs)的出现,如 GPT-4V,扩展了人工智能应用程序,与人脑的多模态能力相匹配。然而,评估 MLLMs 的有效性面临着重大挑战,因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询,并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题,我们引入了 MLLM-Bench,这是一个受 Vicuna 启发的创新基准,涵盖了各种场景,包括感知、理解、应用、分析、评估和创作,以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验,并提供了对模型性能更全面的评估。对比评估结果表明,现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为,MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。
Nov, 2023
通过构建模型以较少的、多模态自然数据进行训练,并将其与行为数据进行直接比较,我们介绍了 DevBench,一个包括七个跨越词汇、句法和语义能力领域的语言评估任务的多模态基准。在这些任务中,模型在准确性和回应模式上与人类表现出差异。通过比较模型与人类在任务上的表现,我们发现在语言发展过程中模型与人类的差异,并提供了改进语言模型的切入点。
Jun, 2024
多模式大型语言模型在网页相关任务中表现出了很大的潜力,评估其在网页领域的性能仍然是一个挑战,因为缺乏全面的基准测试。本文引入了一个名为 ench {} 的多模式基准测试,其设计旨在评估 ML 近几年在网页任务中的能力。通过在 ench {} 上评估了 14 个开源 MLLMs,如 Gemini Pro、Claude-3 系列和 GPT-4V (ision),我们揭示了重要挑战和性能差距。进一步的分析突出了当前 MLLMs 的限制,包括在文本丰富环境中缺乏足够的基础知识,并在低分辨率图像输入下表现不佳。我们相信 ench {} 将成为研究界宝贵的资源,并为网页相关应用的更加强大和多功能的 MLLMs 的创建做出贡献。
Apr, 2024
通过提出 MMEvalPro 基准测试,我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进,其结果表明该基准测试更具挑战性且更可信,为进一步推动未来研究提供了重要潜力。
Jun, 2024
我们提出了一个评估基准 MM-Vet,它检查了复杂的多模态任务上的大型多模态模型(LMMs)。我们根据洞察力设计了 MM-Vet,该洞察力表明解决复杂任务的有趣能力通常是通过一种通用模型能够整合不同的核心视觉语言(VL)能力实现的。
Aug, 2023