ReForm-Eval: 通过任务导向基准的统一重新制定评估大型视觉语言模型
该研究评估了大型视觉语言模型(LVLMs)区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型,但存在向右的偏差,并且相对于人类表现出明显较差。为了深入研究这些发现,我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成,从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准,我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势,并推进了基准构建技术,提供了一种可扩展和自动化的人工智能模型评估方法。
Jun, 2024
本文介绍了一个 LVLM-eHub 综合评估平台,使用 6 种多模态能力定量评估 47 个标准文本相关视觉基准,并利用在线平台提供用户级评估。结果显示,采用多轮推理评估框架可以缓解对象幻觉问题,为开发有效的 LVLM 评估流水线提供了启示。
Jun, 2023
通过自动数据整理和评估,利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力,我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。
Nov, 2023
大型视觉语言模型(LVLMs)在生成看似可信但事实上不正确的输出时存在幻觉问题,这损害了它们的可靠性。为了解决这些问题,我们介绍了一个多维度的评估基准和基于大型语言模型(LLM)的两阶段评估框架,通过对现有 LVLMs 进行实验,证明了我们的评估方法比现有工作更全面、与人类更相关,并且强调了在保持输出信息性的同时解决 LVLMs 中的幻觉问题的关键平衡。
Apr, 2024
多模式大型语言模型在感知和解释任务中显示出巨大潜力,但其在预测推理方面的能力尚未得到充分探索。为填补这一空白,我们引入了一个新颖的基准测试,评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域:抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法,以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性,并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后,我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架,并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。
Oct, 2023
该研究介绍了 MMT-Bench,这是一个综合性评估基准,旨在评估大规模视觉 - 语言模型(LVLM)在多种跨领域的多模态任务上的能力,并促进下一代通用多模态智能基础模型的发展。
Apr, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于 LLM 中的世界知识。2)在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题,我们提出了 MMStar,这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM,以评估它们的多模态能力,并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023