评估视觉和文化解读: K-Viscuit 基准测试与人机合作

Jun, 2024

评估视觉和文化解读: K-Viscuit 基准测试与人机合作

Evaluating Visual and Cultural Interpretation: The K-Viscuit Benchmark with Human-VLM Collaboration

Yujin Baek, ChaeHun Park, Jaeseok Kim, Yu-Jung Heo, Du-Seong Chang...

TL;DR通过半自动化流程，并结合外部知识检索，构建了适应韩国文化的数据集，从而有效评估了文化相关的视觉 - 语言模型，结果显示开源模型在理解韩国文化方面明显落后于专有模型，并提供了各种文化方面的 VLM 性能分析和未来改进方向的建议。

Abstract

To create culturally inclusive vision-language models (VLMs), the foremost requirement is developing a test benchmark that can diagnose the models' ability to respond to questions reflecting cultural elements. Th

culturally inclusive vision-language models test benchmark semi-automated pipeline korean culture vlm performance

发现论文，激发创造

无过滤器：对比式视觉语言模型中的文化和社会经济多样性

该研究探讨了视觉 - 语言模型中的文化和社会经济多样性，研究发现了数据训练过程中对低社会经济地位社群和文化理解的不公平现象，并提出了一种改进方法以提高文化多样性。

May, 2024

从我的视角看：对大型视觉 - 语言模型在图片理解中的西方文化偏见进行诊断

视觉 - 语言模型（VLMs）可以通过多种语言回答有关图像的问题。然而，除了语言，文化也影响我们的观察方式。在这项研究中，我们展示了一项新颖的调查，证明并定位了 VLMs 在图像理解中存在的西方偏见。通过对文化多样的图像和注释进行主观和客观的视觉任务评估，我们发现 VLMs 在每个任务的西方子集上表现更好。追踪偏见源头的控制实验强调了在仅使用文本进行预训练时构建公平 VLMs 的多样语言混合的重要性，即使是在英语推理的情况下。此外，虽然使用目标文化语言进行提示可以减少偏见，但并不能替代构建更具世界语言代表性的人工智能。

Jun, 2024

从地方概念到普适性：评估视觉语言模型的多元文化理解

通过引入 GlobalRG 基准，涵盖了检索跨文化图像的普遍概念和在图像中定位文化特定概念这两个具有挑战性的任务，我们评估了各种模型在不同文化背景下的表现，并强调了在视觉语言模型中增强多元文化理解的必要性。

Jun, 2024

KNVQA：用于评估基于知识的视觉问答的基准

该研究论文提出了一种新的知识驱动图像问答（KNVQA）评估方法，以解决大型视觉 - 语言模型在现实场景中存在的物体虚构和事实准确性两个关键问题，并开发了相应的 KNVQA 数据集进行评估，从而有效评估现有方法的细粒度能力并为大型视觉 - 语言模型的进一步优化提供潜在思路。

Nov, 2023

通过合成基准评估大型视觉 - 语言模型对现实世界复杂性的理解

该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这些发现，我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成，从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准，我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势，并推进了基准构建技术，提供了一种可扩展和自动化的人工智能模型评估方法。

Jun, 2024

Heron-Bench: 评估日语视觉语言模型的基准

为了解决日语 VLMs（Vision Language Models）的开发和评估中存在的问题，我们引入了一个新的基准测试集，日本 Heron-Bench，用于评估 VLMs 的日语能力。我们还提供了一个基准日语 VLM，它使用了经过日语视觉指导调优的数据集进行训练。通过我们的 Heron-Bench，我们揭示了提出的 VLM 在各种能力维度上的优势和局限性，并明确了像 GPT-4V 这样的强封闭模型与基准模型之间的能力差距，为未来的研究提供了宝贵的见解。为了促进日语 VLM 研究的进一步发展，我们公开发布了基准数据集和训练代码。

Apr, 2024

VIPHY：探究 “可见” 的物理常识知识

本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力，并发现这些模型在物体颜色，大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。

Sep, 2022

CVQA：跨文化多语言视觉问答基准

构建了 CVQA，一个新的多元文化多语言视觉问答基准，覆盖了 28 个国家的文化驱动图像和问题，包括 26 种语言和 11 种文字，共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试，显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件，并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。

Jun, 2024

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Nov, 2023

CVLUE：一个新的面向中文视觉语言理解评估的基准数据集

通过新的 Chinese Vision-Language Understanding Evaluation (CVLUE) 基准数据集，揭示了现有的中文视觉 - 语言模型在中文文化方面的性能差距，并发现在中国文化方面缺乏知识。此外，通过在中文相关视觉 - 语言数据集上进行微调，有效提升了视觉 - 语言模型对中国文化的理解。

Jul, 2024