迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

Oct, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond

PDF

Xiang Zhang, Senyu Li, Zijun Wu, Ning Shi

TL;DR通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Abstract

Recent advancements in multimodal techniques open exciting possibilities for models excelling in diverse tasks involving text, audio, and image processing. Models like GPT-4V, blending computer vision and language modeling, excel in complex text and image tasks. Numerous prior research

multimodal techniques vision large language models cross-modal interactions capability disparities vision description prompting

发现论文，激发创造

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

多语言视觉推理中缺少的内容及其修复方法

NLP 模型通过在视觉推理任务上的测试，评估了多语言、多模态方面的能力。通过分析模型的失败，提出了三个针对性干预措施，包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能，并稍微改善了 GPT-4V 的性能。

Mar, 2024

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

探索 GPT-4V (ision) 的推荐能力：初步案例研究

通过研究 GPT-4V (ison)，我们发现多模态模型在推荐任务中的潜力，并证明了 GPT-4V 具有出色的零 - shot 推荐能力，同时也发现了其在类似输入上提供相似响应的局限性。我们希望激发进一步研究下一代多模态生成式推荐模型，以提供更多样性和互动性，从而增强用户体验。

Nov, 2023

构建多语言视觉文本数据集揭示视觉语言模型的多语言能力

我们通过模板构建了四种语言的多语言视觉文本数据集，介绍了九项视觉语言任务，并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。

Mar, 2024

将 GPT-4o 置于考验中：对语言、视觉、语音和多模态熟练度的全面评估

GPT-4o 综合评估了大型语言模型（LLMs）在语言、视觉、语音和多模态能力方面的性能，结果显示 GPT-4o 在语言和推理能力的多个领域表现出高准确性和高效率，尤其在需要少样本学习的任务上表现出色，并在多模态任务方面相较于先前模型取得显著改进，但在处理复杂和模糊输入方面存在一定的变异性和限制，尤其在音频和视觉能力方面。该研究强调了需要更全面的基准和稳健的评估框架，包括定性评估以及错误分析，未来的工作应着重于扩展数据集，研究基于提示的评估，以及提升少样本学习技术以测试模型在实际场景中的适用性和性能。

Jun, 2024

从概念到制造：评估用于工程设计的视觉语言模型

利用 GPT-4V 模型进行了一项广泛评估，涵盖概念设计、系统级和详细设计、制造和检验以及工程教育等四个主要领域的工程设计任务，在分析中发现了该模型在处理复杂设计和制造挑战方面的能力，并确定了其在复杂工程设计应用中的局限性。

Nov, 2023

Rec-GPT4V：大型视觉语言模型的多模态推荐

利用大型视觉 - 语言模型进行多模态推荐的研究中，研究人员通过引入用户历史和基于图像摘要生成的查询方式，克服了大型视觉 - 语言模型面临的用户偏好知识和多样复杂图像序列问题，并验证了该方法的有效性。

Feb, 2024