ConTextual: 大型多模态模型中的上下文敏感的文本丰富视觉推理评估

Jan, 2024

ConTextual: 大型多模态模型中的上下文敏感的文本丰富视觉推理评估

ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models

Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng

TL;DRAI 研究纸提出了 ConTextual，它是一个新颖的基准测试，旨在评估 LMM 在上下文敏感的文本丰富的视觉推理方面的能力，发现最佳表现的 LMM 与人类能力存在 30.8％的性能差距，表明上下文敏感的文本丰富的视觉推理仍有改进空间。

Abstract

Recent advancements in ai have led to the development of large multimodal models (LMMs) capable of processing complex tasks involving joint reasoning over text and visual content in the image (e.g., navigating maps in public places). This paper introduces →

ai multimodal models contextual context-sensitive text-rich visual reasoning performance gap

发现论文，激发创造

一种基于多模态上下文推理的条件推断方法，适用于联合文本和视觉线索

提出了一种名为 ModCR 的多模态上下文推理方法，结合文本信息和图像信息进行上下文推理，相较于之前的基于预训练视觉 - 语言模型的方法，ModCR 将给定的文本抽象语义和客观图像信息作为上下文信息，在预训练的语言模型中嵌入它们进行上下文推理，并通过引入可学习的对齐前缀将多视角语义对齐信息与语言和图形结合起来，使得该语言模型更适用于联合文本和视觉线索的多模态推理场景。

May, 2023

大型多模态模型中的上下文劫持

通过提出使用 GPT-4V 的预过滤方法，在大规模多模态模型中解决了离题的图像和文本上下文对结果的偏导问题，并进一步研究了通过 GPT-4V 和文本到图像模型替换相关上下文是否能帮助生成连贯的回答。

Dec, 2023

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

大型多模型模型能否揭示图像背后的深层语义？

通过 DEEPEVAL 评估，本研究发现现有的大型多模态模型对深度语义的理解能力与人类存在明显差距，尽管在图像描述方面达到了与人类相媲美的性能。进一步分析表明，推理过程中结合描述文本可以显著增强大型多模态模型对深度语义的感知能力。

Feb, 2024

CODIS：面向多模态大型语言模型的上下文相关视觉理解基准测试

多模态大语言模型 (MLLMs) 在结合视觉和语言的各种任务中展现了有前景的结果。本研究引入了一个被命名为 CODIS 的新基准，旨在评估模型利用自由文本中提供的上下文来增强视觉理解能力。我们的研究结果显示 MLLMs 在该基准上始终无法达到人类表现水平，进一步分析证实这些模型在提取和利用上下文信息以改善对图像的理解方面存在困难，强调了提高 MLLMs 以上下文相关方式理解视觉信息的迫切需求。

Feb, 2024

MathVista: 在视觉背景中评估基础模型的数学推理

通过创建 MathVista 基准测试，研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究，并详细评估了 11 种不同模型的性能，为未来的通用 AI 代理的发展提出了挑战。

Oct, 2023

多模态大型语言模型中的图推理图渲染

本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性，并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。

Feb, 2024

HallusionBench: 视觉与图像上下文推理基准测试，对 GPT-4V (ision)，LLaVA-1.5 和其他多模态模型构成挑战

通过研究图像上下文推理基准测试 HallusionBench，揭示了 VLM（Vision-Language Model）的幻觉和视觉错觉，并在未来改进中提出了新的见解。

Oct, 2023

SEED-Bench-2-Plus：基于多模态大型语言模型的文本丰富视觉理解基准测试

我们介绍了 SEED-Bench-2-Plus，这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准，通过涵盖现实世界中的三个广泛类别（图表、地图和网络），它们有效地模拟了复杂多样的文本丰富环境，并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。

Apr, 2024

多语言视觉推理中缺少的内容及其修复方法

NLP 模型通过在视觉推理任务上的测试，评估了多语言、多模态方面的能力。通过分析模型的失败，提出了三个针对性干预措施，包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能，并稍微改善了 GPT-4V 的性能。

Mar, 2024