文化和包容性考虑下的视觉-语言模型

Jul, 2024

文化和包容性考虑下的视觉-语言模型

Vision-Language Models under Cultural and Inclusive Considerations

Antonia Karamolegkou, Phillip Rust, Yong Cao, Ruixiang Cui, Anders Søgaard...

TL;DR通过创建一个调查问卷，我们确定图说偏好，并通过过滤由盲人拍摄的图像构建一个以文化为中心的评估基准，评估了几种大型视觉语言模型在文化多样化环境中作为视觉助理的可靠性，结果表明最先进的模型仍面临幻觉和与人类判断不一致的自动评估指标的挑战，我们公开共享了调查问卷、数据、代码和模型输出。

Abstract

large vision-language models (VLMs) can assist visually impaired people by describing images from their daily lives. Current evaluation datasets may not reflect diverse cultural user backgrounds or the situationa

发现论文，激发创造

GPT-4V中的视觉文化意识探索：一项全面的探究

探索GPT-4V在视觉理解方面的能力和限制，着重关注文化方面，通过使用MaRVL基准数据集进行详细调查，实验证明GPT-4V在识别文化概念方面表现出色，但在低资源语言上仍然存在较弱的性能。

Feb, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

无过滤器：对比式视觉语言模型中的文化和社会经济多样性

该研究探讨了视觉-语言模型中的文化和社会经济多样性，研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象，并提出了一种改进方法以提高文化多样性。

May, 2024

视觉语言模型的文化意识程度如何？

我们的研究比较了四种流行的视觉语言模型在识别文化特定的图像信息并创建准确且具有文化敏感性的图像标题方面的性能，并提出了一个新的评估指标，即文化意识分数（CAS）。我们还提供了一个带有真实标签的数据集 MOSAIC-1.5k，其中包含了具有文化背景和上下文的图像，以及一个带有分配的文化意识分数的数据集，可用于未被看到的数据。创建具有文化适应性的图像标题对于科学研究非常有价值，对许多实际应用也有益处。我们希望通过向公众提供数据集和文化意识分数，促进全球范围内对于尊重和庆祝全球多样性的文化敏感性AI系统的更深入融合以及更多相关领域的进一步研究的发展。

May, 2024

从我的视角看: 对大型视觉-语言模型在图片理解中的西方文化偏见进行诊断

视觉-语言模型（VLMs）可以通过多种语言回答有关图像的问题。然而，除了语言，文化也影响我们的观察方式。在这项研究中，我们展示了一项新颖的调查，证明并定位了VLMs在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估，我们发现VLMs在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平VLMs的多样语言混合的重要性，即使是在英语推理的情况下。此外，虽然使用目标文化语言进行提示可以减少偏见，但并不能替代构建更具世界语言代表性的人工智能。

Jun, 2024

构建多语言视觉文本数据集揭示视觉语言模型的多语言能力

我们通过模板构建了四种语言的多语言视觉文本数据集，介绍了九项视觉语言任务，并引入了解释机制以评估大型语言模型在视觉语言任务上的表现。

Mar, 2024

评估视觉和文化解读: K-Viscuit基准测试与人机合作

通过半自动化流程，并结合外部知识检索，构建了适应韩国文化的数据集，从而有效评估了文化相关的视觉-语言模型，结果显示开源模型在理解韩国文化方面明显落后于专有模型，并提供了各种文化方面的VLM性能分析和未来改进方向的建议。

Jun, 2024

从地方概念到普适性：评估视觉语言模型的多元文化理解

通过引入GlobalRG基准，涵盖了检索跨文化图像的普遍概念和在图像中定位文化特定概念这两个具有挑战性的任务，我们评估了各种模型在不同文化背景下的表现，并强调了在视觉语言模型中增强多元文化理解的必要性。

Jun, 2024

CVLUE：一个新的面向中文视觉语言理解评估的基准数据集

通过新的Chinese Vision-Language Understanding Evaluation (CVLUE)基准数据集，揭示了现有的中文视觉-语言模型在中文文化方面的性能差距，并发现在中国文化方面缺乏知识。此外，通过在中文相关视觉-语言数据集上进行微调，有效提升了视觉-语言模型对中国文化的理解。

Jul, 2024

文化理解的视觉语言模型基准测试

这篇研究介绍了CulturalVQA，它是一个用于评估VLM的地理多样性文化理解能力的视觉问答基准。通过对GPT-4V和Gemini等模型在CulturalVQA上的性能评估，发现它们在不同地区的文化理解水平存在差异，其中北美地区的文化理解能力较强，而非洲地区的性能较低。研究还观察到在不同文化方面存在性能差异，其中服饰、仪式和传统的表现优于食物和饮品。这些差异帮助我们识别VLM在文化理解方面的不足，并展示了CulturalVQA作为一个评估各种文化理解能力的全面数据集的潜力。

Jul, 2024