MM-SAP：评估多模态大型语言模型在感知领域自感知能力的综合基准

Jan, 2024

MM-SAP：评估多模态大型语言模型在感知领域自感知能力的综合基准

MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception

Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang...

TL;DR通过引入知识象限来定义知道与不知道的知觉，我们针对自我知觉在图像感知方面提出了一个评估多模态大型语言模型的自我感知能力的新型基准测试（MM-SAP），通过评估八种知名的多模态大型语言模型的自我感知能力，提供了详细的洞察。

Abstract

multimodal large language models (MLLMs) have shown their remarkable abilities in visual perception and understanding recently. However, how to comprehensively evaluate the capabilities of MLLMs remains a challenge. Most of the existing benchmarks predominantly focus on assessing perce

multimodal large language models self-awareness image perception knowledge quadrant benchmark

发现论文，激发创造

增强多模态大型语言模型的空间感知能力

本文针对多模态大型语言模型（MLLM）在空间感知能力与人类需求之间存在的差距，提出使用更精确的物体间空间位置信息来引导 MLLM 以更准确地回答用户相关查询，并通过实验证明该方法在增强 MLLM 的空间感知任务和相关任务方面的有效性。

Oct, 2023

AesBench：多模态大型语言模型在图像美学感知方面的专业基准

通过构建一个包含多样化图像内容和高质量专业审美专家注释的专家标记的美学感知数据库（EAPD）和一套综合性评判标准，我们提出了 AesBench 来全面评估多模态大规模语言模型（MLLMs）的美学感知能力，实验结果表明，目前的 MLLMs 只具有初步的美学感知能力，与人类之间仍然存在显著差距。希望此研究能激发学术界对 MLLMs 美学潜力的进一步探索。

Jan, 2024

MME: 多模态大语言模型综合评估基准

本文介绍了第一代 MLLM 评估基准 - MME 模型，并对 10 种先进的 MLLM 模型进行了全面评估，同时对模型优化的潜在方向进行了研究。

Jun, 2023

MM-Soc: 社交媒体平台上多模态大型语言模型的基准测试

社交媒体是多模态信息交流的中心，包括文本、图片和视频，这对机器来理解在线空间中的信息或情感相关的交互构成了挑战。本文介绍了 MM-Soc，一个综合性基准，旨在评估多模态大型语言模型对多模态社交媒体内容的理解能力。通过我们对四个开源多模态大型语言模型的十个规模变体的详尽评估，我们发现了重要的性能差异，突出了模型在社交理解能力方面的改进需求。

Feb, 2024

我思故我在：大型语言模型中的意识

大型语言模型是否具有类似于人类的任何形式的知觉？本文介绍了将知觉概念引入到大型语言模型中，认为知觉是增强大型语言模型与人类互动并确保其道德回应的重要方面。我们定义大型语言模型的知觉为其作为 AI 模型感知和理解自己，以及展现社交智能的能力。我们确定了四个关键方面的知觉：能力，使命，情感和视角。为了评估大型语言模型在这些方面的表现，我们引入了一个专门的数据集，即 AwareLLM 数据集。我们的研究结果表明，大型语言模型展现了一定程度的知觉，尽管它们仍然缺乏实质性的能力知觉。

Jan, 2024

多模态大型语言模型中的顺序视觉输入推理和预测基准测试

多模式大型语言模型在感知和解释任务中显示出巨大潜力，但其在预测推理方面的能力尚未得到充分探索。为填补这一空白，我们引入了一个新颖的基准测试，评估多模式大型语言模型在不同情境下的预测推理能力。我们的基准测试针对三个重要领域：抽象模式推理、人类活动预测和物理交互预测。我们进一步开发了三种由大型语言模型驱动的评估方法，以稳健地量化模型在基于多模态上下文的预测和推理未来方面的性能。经验实验证实了所提出的基准测试和评估方法的合理性，并通过严格测试揭示了当前流行的多模式大型语言模型在预测推理任务中的优缺点。最后，我们提出的基准测试为多模式大型语言模型提供了一个标准化的评估框架，并可以促进开发能够在复杂的长序列多模态输入上进行推理和预测的更先进的模型的发展。

Oct, 2023

MLLM 作为评判者：以视觉 - 语言基准评估多模态 MLLM

通过引入一种新的基准测试，MLLMs 作为评判者，本研究揭示了 MLLMs 在评估任务中的能力，并发现 MLLMs 在对人员喜好的评估和排名任务中存在显著差异，同时面临着多样的偏见、幻觉反应和不一致问题，强调了对 MLLMs 进一步改进和研究的迫切需求。

Feb, 2024

SEED-Bench-2：多模态大型语言模型基准测试

我们提出了 SEED-Bench-2，这是一个综合评估多模态大型语言模型能力的基准测试，并通过对 23 个主要开源多模态大型语言模型的性能评估，揭示了现有模型的局限性。

Nov, 2023

II-Bench：基于多模态大型语言模型的图像影响理解基准

通过对多个多模态大型语言模型进行实验，我们发现高级图片感知能力方面存在较大差距，并且这些模型在理解高级语义和捕捉图片细节方面存在限制。此外，当提供图片情感极性提示时，大多数模型表现出更好的准确性，暴露出它们对图片情感的内在理解不足。

Jun, 2024

明辨视界，难答问题：基于多模态鲁棒性的机器学习语言模型评估

通过提出一个多模态鲁棒性评估基准以及一个训练集，我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性，而这种脆弱性可以通过在新的训练集上进行微调来显著增强。

Jun, 2024