令人惊讶的失败？多模态 LLMs 与 NLVR 挑战

Feb, 2024

令人惊讶的失败？多模态 LLMs 与 NLVR 挑战

A Surprising Failure? Multimodal LLMs and the NLVR Challenge

Anne Wu, Kianté Brantley, Yoav Artzi

TL;DR本研究评估了三种最先进的 MLLM 模型：GPT-4V，Gemini Pro 和开源模型 IDEFICS，在组合自然语言视觉推理任务 NLVR 上的表现。尽管这些模型表现出很强的性能，但我们观察到它们在 NLVR 上表现不佳，该任务要求组合和空间推理，并对语义和系统偏见具有鲁棒性。

Abstract

This study evaluates three state-of-the-art mllms -- gpt-4v, gemini pro, and the open-source model →

mllms gpt-4v gemini pro idefics nlvr

发现论文，激发创造

多语言视觉推理中缺少的内容及其修复方法

NLP 模型通过在视觉推理任务上的测试，评估了多语言、多模态方面的能力。通过分析模型的失败，提出了三个针对性干预措施，包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能，并稍微改善了 GPT-4V 的性能。

Mar, 2024

IllusionVQA：一个为视觉语言模型设计的具有挑战性的视错觉数据集

Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.

Mar, 2024

医学影像中多模态大型语言模型的实用性初探

利用 Gemini 和 GPT-4V 模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现 Gemini 在分类任务上略优于 GPT-4V，而 GPT-4V 的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部 X 射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

通过可操控性和可组合性实现视觉智能和语言智能

该研究探索了多模态大型语言模型在处理复杂的多步骤任务中的能力，重点研究了模型的可操控性、可组合性以及对长期记忆和上下文理解的应用。通过评估 800 个导向性对话的结果，本研究发现不同任务的完成难度存在明显差异，强调了开发结合长期记忆和上下文意识的语言模型在复杂问题解决情境中模拟人类思维过程的重要性。

Nov, 2023

MLLM-Bench，使用 GPT-4V 评估多模式 LLMs

为了追求人工通用智能（AGI），将视觉集成到语言模型中标志着一个重要里程碑。视觉语言模型（MLLMs）的出现，如 GPT-4V，扩展了人工智能应用程序，与人脑的多模态能力相匹配。然而，评估 MLLMs 的有效性面临着重大挑战，因为缺乏确定性答案的任务具有主观性。现有的多模态大型语言模型的自动评估方法依赖于具有标准答案的客观查询，并未充分解决创造性和联想性多模态任务的细微差别。为了解决这个问题，我们引入了 MLLM-Bench，这是一个受 Vicuna 启发的创新基准，涵盖了各种场景，包括感知、理解、应用、分析、评估和创作，以及伦理考虑。MLLM-Bench 的设计更加准确地反映用户体验，并提供了对模型性能更全面的评估。对比评估结果表明，现有的开源模型和 GPT-4V 之间存在显著的性能差距。我们认为，MLLM-Bench 将推动开源社区在开发能满足广泛实际应用需求的用户导向视觉语言模型方面取得进展。请访问 https://mllm-bench.llmzoo.com 查看在线排行榜。

Nov, 2023

挑战 GPT-4V？对 Gemini 在视觉专长方面的早期探索

Gemini Pro is explored as a challenger to GPT-4V in multi-modal learning, showcasing comparable visual reasoning capabilities but with different answering styles and preferences, while Sphinx lags behind in domain generalizability; Gemini has the potential to be a strong contender according to quantitative evaluation on the MME benchmark.

Dec, 2023

推理中的雙子座：揭示多模態大語言模型中的常識

Google 的 Gemini 模型通过对 12 个常识推理数据集的综合分析，展现出与其他语言模型和多模态语言模型相竞争的常识推理能力，揭示了当前语言模型和多模态语言模型在解决常识问题方面所面临的共同挑战，强调了提高这些模型的常识推理能力的进一步发展的需求。

Dec, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

近期大型视觉 - 语言模型的有效性评估

大视觉语言模型在专业任务和通用任务中的效能进行综合评估，发现它们在专业任务和通用任务中均表现有限，可能的因素包括专业任务认知有限、物体幻觉、文本与图像的干扰以及在复杂问题中的鲁棒性降低。

Mar, 2024

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024