ConTextual: 大型多模态模型中的上下文敏感的文本丰富视觉推理评估
提出了一种名为 ModCR 的多模态上下文推理方法,结合文本信息和图像信息进行上下文推理,相较于之前的基于预训练视觉 - 语言模型的方法,ModCR 将给定的文本抽象语义和客观图像信息作为上下文信息,在预训练的语言模型中嵌入它们进行上下文推理,并通过引入可学习的对齐前缀将多视角语义对齐信息与语言和图形结合起来,使得该语言模型更适用于联合文本和视觉线索的多模态推理场景。
May, 2023
通过提出使用 GPT-4V 的预过滤方法,在大规模多模态模型中解决了离题的图像和文本上下文对结果的偏导问题,并进一步研究了通过 GPT-4V 和文本到图像模型替换相关上下文是否能帮助生成连贯的回答。
Dec, 2023
最近,GPT-4 语言模型与视觉能力相结合,我们对 GPT-4V 和其他五个基准模型进行了提示评估,包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought,在多模态 LLMs 上的扩展,在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析,突出了一致性多模态推理所面临的挑战。
Dec, 2023
通过 DEEPEVAL 评估,本研究发现现有的大型多模态模型对深度语义的理解能力与人类存在明显差距,尽管在图像描述方面达到了与人类相媲美的性能。进一步分析表明,推理过程中结合描述文本可以显著增强大型多模态模型对深度语义的感知能力。
Feb, 2024
多模态大语言模型 (MLLMs) 在结合视觉和语言的各种任务中展现了有前景的结果。本研究引入了一个被命名为 CODIS 的新基准,旨在评估模型利用自由文本中提供的上下文来增强视觉理解能力。我们的研究结果显示 MLLMs 在该基准上始终无法达到人类表现水平,进一步分析证实这些模型在提取和利用上下文信息以改善对图像的理解方面存在困难,强调了提高 MLLMs 以上下文相关方式理解视觉信息的迫切需求。
Feb, 2024
通过创建 MathVista 基准测试,研究提出了对于大型语言模型和大型多模态模型在数学推理和视觉背景下的能力的正式研究,并详细评估了 11 种不同模型的性能,为未来的通用 AI 代理的发展提出了挑战。
Oct, 2023
本文探讨了在图推理任务中将视觉信息与文本信息相结合的可行性,并使用基准测试 GITQA 以及多模态 LLM 模型进行了实验证明了在图推理任务中使用文本和视觉信息相结合要好于单一模态。
Feb, 2024
通过研究图像上下文推理基准测试 HallusionBench,揭示了 VLM(Vision-Language Model)的幻觉和视觉错觉,并在未来改进中提出了新的见解。
Oct, 2023
我们介绍了 SEED-Bench-2-Plus,这是一个专门设计用于评估 MLLMs 的文本丰富视觉理解的基准,通过涵盖现实世界中的三个广泛类别(图表、地图和网络),它们有效地模拟了复杂多样的文本丰富环境,并强调了当前 MLLMs 在文本丰富视觉理解方面的限制。
Apr, 2024
NLP 模型通过在视觉推理任务上的测试,评估了多语言、多模态方面的能力。通过分析模型的失败,提出了三个针对性干预措施,包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能,并稍微改善了 GPT-4V 的性能。
Mar, 2024