多模态编辑中的关键问题
对多模态大语言模型进行了全面评估,介绍了一种用于长上下文能力评估的基准测试方法,包括多图像输入和图像拼接,以加大输入上下文长度,并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述,对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型,但在负样本(即针未在抽屉中)中存在错误信息生成问题。此外,对 API 模型和开源模型进行了综合的长上下文评估,显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。
Jun, 2024
通过使用全面的评估框架 MM-BigBench,本文综合评估了 20 个语言模型(包括 14 个多模态大型语言模型)在 14 个多模态数据集上的性能,并通过引入新的指标,对不同模型和指令之间的性能以及适应性进行了评估。
Oct, 2023
我们引入了 MIA-Bench,一个新的基准测试,旨在评估多模态大型语言模型在其严格遵循复杂指令方面的能力。通过评估各种最先进的多模态大型语言模型,我们发现性能存在显著差异,突出了指令准确性方面的改进空间。此外,我们创建了额外的训练数据,并探索监督微调来提高模型在严格遵循指令的能力,而不牺牲其他任务的性能。我们希望这个基准测试不仅可用于测量多模态大型语言模型对指令的遵循程度,还能指导未来的多模态大型语言模型训练方法的发展。
Jul, 2024
我们提出了 SEED-Bench-2,这是一个综合评估多模态大型语言模型能力的基准测试,并通过对 23 个主要开源多模态大型语言模型的性能评估,揭示了现有模型的局限性。
Nov, 2023
本文展示了使用增强记忆的大型语言模型(LLM)架构在提高从潜在长上下文中召回事实的能力方面的好处。我们以 LARIMAR 为案例研究,它是最近提出的一种 LLM 架构,通过在 LLM 解码器上增加外部关联内存来增强性能,并在几个长上下文召回任务中进行测试,包括密码测试和大海捞针测试。我们证明了测试时可以适应比训练中观察到的更长上下文,同时保持经过训练的解码器可以识别的内存读出结果,而不增加 GPU 内存占用。与参数数量相近的长上下文召回任务的其他替代架构相比,LARIMAR 可以在没有任何特定任务训练的情况下保持强大的性能。
Jul, 2024
基于强大的大型语言模型(LLMs),最近的生成式多模态大型语言模型(MLLMs)作为一个关键的研究领域备受关注,展示了出色的理解和生成能力。本研究通过引入一个名为 SEED-Bench 的基准测试,解决了 MLLMs 生成理解的评估问题,该基准测试包含 19K 个准确的多项选择问题(是现有基准测试的 6 倍大),涵盖了 12 个评估维度,包括图像和视频模态的理解。我们开发了一个高级流程用于生成以特定评估维度为目标的多项选择问题,该流程整合了自动过滤和人工验证过程。由人类注释导出的带有真实选项的多项选择问题可以客观且高效地评估模型性能,在评估过程中无需人类或 GPT 的干预。我们进一步评估了 18 个模型在所有 12 个维度上的性能,涵盖了空间和时间的理解。通过评估结果揭示现有 MLLMs 的局限性,我们希望 SEED-Bench 为激发未来的研究提供见解。我们将建立并持续维护一个排行榜,为社区提供评估和研究模型能力的平台。
Jul, 2023
本文介绍了第一代 MLLM 评估基准 - MME 模型,并对 10 种先进的 MLLM 模型进行了全面评估,同时对模型优化的潜在方向进行了研究。
Jun, 2023
该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型(MLLMs)在长上下文和多图像任务中的适应能力,并发现开源 MLLMs 在长上下文情境中面临着挑战,尤其在涉及多图像的情景下。
Apr, 2024
Multi 是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs 在 Multi 上取得了显著的进展,与其他 MLLMs 相比,GPT-4V 的准确率达到了 63.7%,Multi 不仅是一个强大的评估平台,也为专家级 AI 的发展铺平了道路。
Feb, 2024
通过引入一种新的基准测试,MLLMs 作为评判者,本研究揭示了 MLLMs 在评估任务中的能力,并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异,同时面临着多样的偏见、幻觉反应和不一致问题,强调了对 MLLMs 进一步改进和研究的迫切需求。
Feb, 2024