近期大型视觉 - 语言模型的有效性评估
在这项研究中,我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务,发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征,而 SAM 则在一般情况下具备分离伪影的能力,但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。
May, 2024
为了追求人工通用智能(AGI),将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型(MLLMs)的出现,如 GPT-4V,扩展了人工智能应用程序,与人脑的多模态能力相匹配。然而,评估 MLLMs 的有效性面临着重大挑战,因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询,并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题,我们引入了 MLLM-Bench,这是一个受 Vicuna 启发的创新基准,涵盖了各种场景,包括感知、理解、应用、分析、评估和创作,以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验,并提供了对模型性能更全面的评估。对比评估结果表明,现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为,MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。
Nov, 2023
通过评估最先进的大型视觉和语言模型在儿童奥林匹克数学竞赛中的数学推理能力,我们填补了当前科学文献中缺少的有关联合视觉和文本推理的系统分析,结果显示现代大型视觉和语言模型在高年级的问题解决能力越来越强,但缺乏解答针对年幼儿童设计的问题的基础知识,而且它们的能力似乎基于与儿童的数学和逻辑技能不同的推理类型。
Jun, 2024
我们提出了一种评估方法,使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力,通过构建综合的触石视觉对话数据集和整合详细的图像注释,我们能够在不需要人为干预的情况下,利用先进的大语言模型直接评估多模态对话的质量,从而为大视觉语言模型的评估提供参考,并铺就构建更强大的大视觉语言模型的道路。
Aug, 2023
该研究评估了大型视觉语言模型(LVLMs)区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型,但存在向右的偏差,并且相对于人类表现出明显较差。为了深入研究这些发现,我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成,从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准,我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势,并推进了基准构建技术,提供了一种可扩展和自动化的人工智能模型评估方法。
Jun, 2024
综述了大语言模型与视觉语言模型的最新进展,分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性,并提出未来研究的潜在方向。
Feb, 2024
通过研究评估作品,我们找出了两个主要问题:1)对于很多样本来说,视觉内容是不必要的;答案可以直接从问题和选项中推断出来,或者来自于 LLM 中的世界知识。2)在 LLM 和 LVLM 训练中存在意外的数据泄漏。为了解决这些问题,我们提出了 MMStar,这是一个由人工精选的具有 6 个核心能力和 18 个详细方向的视觉不可或缺的多模态基准。我们在 MMStar 上评估了 16 个主要的 LVLM,以评估它们的多模态能力,并通过提出的指标在 7 个基准上调查了它们的数据泄漏和实际多模态增益。
Mar, 2024
通过比较多模态大型语言模型在年龄和性别估计专项任务中的能力,并尝试对 ShareGPT4V 模型进行微调,该研究提供了有关这些模型的优势和劣势的有趣结果和见解,并更新了 MiVOLO 模型的细节和新指标。
Mar, 2024
通过自动数据整理和评估,利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力,我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。
Nov, 2023
本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM,通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理,从而统一了视觉和语言任务的视角,具有不同级别的任务定制能力,成为一种通用的视觉和语言模型。
May, 2023