大型多模型模型能否揭示图像背后的深层语义？

Feb, 2024

大型多模型模型能否揭示图像背后的深层语义？

Can Large Multimodal Models Uncover Deep Semantics Behind Images?

Yixin Yang, Zheng Li, Qingxiu Dong, Heming Xia, Zhifang Sui

TL;DR通过 DEEPEVAL 评估，本研究发现现有的大型多模态模型对深度语义的理解能力与人类存在明显差距，尽管在图像描述方面达到了与人类相媲美的性能。进一步分析表明，推理过程中结合描述文本可以显著增强大型多模态模型对深度语义的感知能力。

Abstract

Understanding the deep semantics of images is essential in the era dominated by social media. However, current research works primarily on the superficial description of images, revealing a notable deficiency in the systematic investigation of the inherent →

deep semantics deepeval large multimodal models evaluation inference process

发现论文，激发创造

科学图像解读的多模态深度学习

该研究提出了一种新的方法，通过多模态深度学习框架从文本和视觉数据中提取洞察力，以模拟和评估人类对扫描电子显微镜 (SEM) 图像（特别是玻璃材料）的交互。我们的模型（GlassLLaVA）在解释、特征识别和检测以前未见的 SEM 图像中的缺陷方面表现出色，为科学成像应用引入了多用途的评估指标，进一步缩小人与机器解释在科学成像中的差距，为未来研究和广泛应用提供了广阔的可能性。

Sep, 2023

基于 LMM 的知识在图像分类任务中的利用

使用 Large Multimodal Models 中的 MiniGPT-4 模型，结合图像编码器和文本编码器提取语义描述，以提高图像分类任务的性能。

Jun, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

探索大型多模型模型对于密集文本的能力

本研究通过在 DT-VQA 数据集上对 GPT4V、Gemini 和不同的开源 LMM 进行全面评估，揭示了它们的优点和缺点，并评估了 LMM 的两种策略：prompt engineering 和 downstream fine-tuning。研究发现，即使使用自动标记的训练数据集，模型性能也能显著提高，希望本研究能促进 LMM 在密集文本任务中的研究。

May, 2024

探索多模态大型语言模型的全局和局部语义表示

研究发现，模型的中间层能够更好地编码全局语义信息，表征向量在视觉 - 语言蕴含任务中表现更好，而最顶层的模型可能过于关注局部信息，导致对全局信息编码能力减弱。

Feb, 2024

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

ConTextual: 大型多模态模型中的上下文敏感的文本丰富视觉推理评估

AI 研究纸提出了 ConTextual，它是一个新颖的基准测试，旨在评估 LMM 在上下文敏感的文本丰富的视觉推理方面的能力，发现最佳表现的 LMM 与人类能力存在 30.8％的性能差距，表明上下文敏感的文本丰富的视觉推理仍有改进空间。

Jan, 2024

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

EmoLLM：多模态情感理解与大型语言模型

通过引入 EmoBench 和 EmoLLM，基于多模态大型语言模型的多模态情感理解性能得到显著提升，提供了更深入、更细致的人类情感理解，为人机交互、心理健康支持和共情人工智能系统等领域的应用开发提供了可能。

Jun, 2024

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023