ActiView:评估多模态大型语言模型的主动感知能力
本文介绍了Kosmos-1,它是一个多模态大语言模型(MLLM),可以感知一般模态,可以在上下文中学习,可以零-shot地遵循说明,并在各种任务上取得了卓越的性能,包括语言理解、生成,多模态对话,图像字幕,视觉问答等,并证明MLLM可以从跨模态转移中受益,即从语言到多模态和从多模态到语言。此外,我们还介绍了Raven IQ测试数据集,用于诊断MLLM的非语言推理能力。
Feb, 2023
本文介绍了一个 LVLM-eHub综合评估平台,使用6种多模态能力定量评估47个标准文本相关视觉基准,并利用在线平台提供用户级评估。结果显示,采用多轮推理评估框架可以缓解对象幻觉问题,为开发有效的LVLM评估流水线提供了启示。
Jun, 2023
多模式大型语言模型在感知和解释任务中显示出巨大潜力,但其在预测推理方面的能力尚未得到充分探索。为填补这一空白,我们引入了一个新颖的基准测试,评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域:抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法,以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性,并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后,我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架,并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。
Oct, 2023
通过设计基准测试,评估多模态大型语言模型 (MLLMs) 在低层次视觉感知和理解方面的能力,并将低层次视觉感知和描述的评估从单一图像扩展到图像对。研究发现,多个 MLLMs 在单一图像上表现出不错的低层次视觉能力,但只有 GPT-4V 在图像对的配对比较中表现出比单一图像评估更高的准确性(类似于人类)。希望这个基准测试能够激发进一步研究,揭示和增强 MLLMs 的新兴能力。
Feb, 2024
在多模态大型语言模型中,研究了其对小型视觉对象的感知限制,发现对象质量、大小、干扰物的位置等因素都会显著降低模型对视觉问题的回答准确性。该研究对多模态大型语言模型的感知限制进行了探索,为未来模型的感知分析提供了新的评价协议。
Feb, 2024
Blink是一个针对多模式语言模型(LLMs)的新基准,重点关注其他评估中找不到的核心视觉感知能力。通过对14个经典的计算机视觉任务进行改组,Blink生成了3,807个多项选择题,配备单个或多个图像和视觉提示。虽然人类平均准确率为95.70%,但Blink对现有的多模式LLMs具有意外的挑战性,即使是表现最佳的GPT-4V和Gemini准确率也只有51.26%和45.72%,仅比随机猜测高出13.17%和7.63%,表明这些感知能力在最近的多模式LLMs中尚未“出现”。我们的分析还突出了专家级计算机视觉模型在解决这些问题方面表现更好,这为未来的改进提供了潜在途径。我们相信Blink将激发社区的努力,帮助多模式LLMs赶上人类水平的视觉感知。
Apr, 2024
通过提出MMEvalPro基准测试,我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进,其结果表明该基准测试更具挑战性且更可信,为进一步推动未来研究提供了重要潜力。
Jun, 2024
本研究针对多模态大语言模型(MLLMs)在多个应用领域(如视觉问答和理解推理)的评价标准进行全面回顾,填补了现有文献在基准和评估方面的空白。该论文汇总了180个基准,探讨了评价方法的局限性,并指出评估应视为支持MLLMs发展的关键学科。研究结果将为未来MLLMs的评估与发展提供重要借鉴。
Aug, 2024
本文解决了在实际应用中标准化评估视觉-语言模型(VLMs)以满足视觉问答(VQA)任务的挑战。作者提出了一种新颖的评估框架和数据集,并开发了GoEval评估指标,通过实验发现没有单一模型在所有领域表现最佳,这为VLM的选择提供了实用指导,具有重要的应用前景。
Sep, 2024
本研究针对多模态大语言模型(MLLMs)在视觉感知能力评估中存在的问题,提出了一种统一且稳健的评估基准“AbilityLens”。这一新方法能够综合多种问题类型、领域和评估指标,显著减少评估变异,并揭示开放源代码与闭源模型之间的性能差距。研究结果显示,通过AbilityLens的使用,能够识别当前模型的优缺点,并有效缓解由于能力冲突导致的性能下降。
Nov, 2024