GPT-4V 中的视觉文化意识探索：一项全面的探究

Feb, 2024

GPT-4V 中的视觉文化意识探索：一项全面的探究

Exploring Visual Culture Awareness in GPT-4V: A Comprehensive Probing

Yong Cao, Wenyan Li, Jiaang Li, Yifei Yuan, Daniel Hershcovich

TL;DR探索 GPT-4V 在视觉理解方面的能力和限制，着重关注文化方面，通过使用 MaRVL 基准数据集进行详细调查，实验证明 GPT-4V 在识别文化概念方面表现出色，但在低资源语言上仍然存在较弱的性能。

Abstract

Pretrained large Vision-Language models have drawn considerable interest in recent years due to their remarkable performance. Despite considerable efforts to assess these models from diverse perspectives, the extent of visual cultural awareness in the state-of-the-art gpt-4v model rema

pretrained models visual cultural awareness gpt-4v marvl benchmark dataset cultural aspects

发现论文，激发创造

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

文化理解的视觉语言模型基准测试

这篇研究介绍了 CulturalVQA，它是一个用于评估 VLM 的地理多样性文化理解能力的视觉问答基准。通过对 GPT-4V 和 Gemini 等模型在 CulturalVQA 上的性能评估，发现它们在不同地区的文化理解水平存在差异，其中北美地区的文化理解能力较强，而非洲地区的性能较低。研究还观察到在不同文化方面存在性能差异，其中服饰、仪式和传统的表现优于食物和饮品。这些差异帮助我们识别 VLM 在文化理解方面的不足，并展示了 CulturalVQA 作为一个评估各种文化理解能力的全面数据集的潜力。

Jul, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

对基于知识的视觉问答模型 GPT-4V 的全面评估

通过从三个角度对 GPT-4V 进行深入评估，即常识知识、细粒度世界知识和具有决策理由的综合知识，我们发现 GPT-4V 在这三项任务上均取得了最好的性能，并且在使用复合图像进行少样本学习时具有增强的推理和解释能力，但在处理世界知识时可能导致严重的错觉，未来仍需要在这个研究方向上进行改进。

Nov, 2023

视觉语言模型的文化意识程度如何？

我们的研究比较了四种流行的视觉语言模型在识别文化特定的图像信息并创建准确且具有文化敏感性的图像标题方面的性能，并提出了一个新的评估指标，即文化意识分数（CAS）。我们还提供了一个带有真实标签的数据集 MOSAIC-1.5k，其中包含了具有文化背景和上下文的图像，以及一个带有分配的文化意识分数的数据集，可用于未被看到的数据。创建具有文化适应性的图像标题对于科学研究非常有价值，对许多实际应用也有益处。我们希望通过向公众提供数据集和文化意识分数，促进全球范围内对于尊重和庆祝全球多样性的文化敏感性 AI 系统的更深入融合以及更多相关领域的进一步研究的发展。

May, 2024

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

通往通用异常检测和理解的道路：大规模视觉语言模型（GPT-4V）领先

使用 GPT-4V 模型进行多模态异态检测任务，包括图像、视频、点云和时间序列数据，在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中，通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中，GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式，从而能够准确区分正常和异常实例，展现出潜在的通用异态检测能力，为异态检测开辟了新的方法。

Nov, 2023

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

使用视觉评估 GPT-4 的美学评价能力：来自群体和个体评估的见解

最近，研究发现大型语言模型在各种智力任务中表现出色，然而，很少有研究探讨其与人类行为对齐，特别是涉及审美评价的行为。本研究调查了可以处理图像输入的先进语言模型 GPT-4 with Vision 在图像的审美评价任务上的表现。我们采用了两个任务，一个是预测一个群体的平均评价值，另一个是预测个体的评价值。通过探索提示和分析预测行为，我们调查了 GPT-4 with Vision 的表现。实验结果显示，GPT-4 with Vision 在预测审美评价方面表现出优秀的性能，并展现出对美和丑之间不同响应的特性。最后，我们讨论了基于人类对美感知的科学知识以及融合传统深度学习模型和大型语言模型的代理技术来开发用于审美评价的 AI 系统。

Mar, 2024