Heron-Bench: 评估日语视觉语言模型的基准

Apr, 2024

Heron-Bench: 评估日语视觉语言模型的基准

Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese

Yuichi Inoue, Kento Sasaki, Yuma Ochi, Kazuki Fujii, Kotaro Tanahashi...

TL;DR为了解决日语 VLMs（Vision Language Models）的开发和评估中存在的问题，我们引入了一个新的基准测试集，日本 Heron-Bench，用于评估 VLMs 的日语能力。我们还提供了一个基准日语 VLM，它使用了经过日语视觉指导调优的数据集进行训练。通过我们的 Heron-Bench，我们揭示了提出的 VLM 在各种能力维度上的优势和局限性，并明确了像 GPT-4V 这样的强封闭模型与基准模型之间的能力差距，为未来的研究提供了宝贵的见解。为了促进日语 VLM 研究的进一步发展，我们公开发布了基准数据集和训练代码。

Abstract

vision language models (VLMs) have undergone a rapid evolution, giving rise to significant advancements in the realm of multimodal understanding tasks. However, the majority of these models are trained and evalua

vision language models multimodal understanding japanese heron-bench japanese vlm benchmark dataset

发现论文，激发创造

评估视觉和文化解读: K-Viscuit 基准测试与人机合作

通过半自动化流程，并结合外部知识检索，构建了适应韩国文化的数据集，从而有效评估了文化相关的视觉 - 语言模型，结果显示开源模型在理解韩国文化方面明显落后于专有模型，并提供了各种文化方面的 VLM 性能分析和未来改进方向的建议。

Jun, 2024

视觉与语言模型中的多图像理解基准测试：感知、知识、推理和多跳推理

通过引入多图像关系基准（MIRB），我们评估了视觉语言模型（VLMs）在比较、分析和推理多个图像时的能力，并发现开源 VLMs 在单图像任务中接近 GPT-4V 的性能，但在多图像推理任务中存在显著的性能差距。我们的发现表明，即使是最先进的 GPT-4V 模型在我们的基准测试中也存在困难，强调了该领域进一步研究和开发的必要性。我们相信我们的 MIRB 可以作为开发下一代多模态模型的测试平台。

Jun, 2024

DevBench：一个用于语言学习的多模态发展基准

通过构建模型以较少的、多模态自然数据进行训练，并将其与行为数据进行直接比较，我们介绍了 DevBench，一个包括七个跨越词汇、句法和语义能力领域的语言评估任务的多模态基准。在这些任务中，模型在准确性和回应模式上与人类表现出差异。通过比较模型与人类在任务上的表现，我们发现在语言发展过程中模型与人类的差异，并提供了改进语言模型的切入点。

Jun, 2024

通过合成基准评估大型视觉 - 语言模型对现实世界复杂性的理解

该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这些发现，我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成，从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准，我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势，并推进了基准构建技术，提供了一种可扩展和自动化的人工智能模型评估方法。

Jun, 2024

AlignMMBench：对大规模视觉 - 语言模型中的中文多模态对齐进行评估

本研究通过引入 AlignMMBench，一个专门为新兴的中文视觉 - 语言模型设计的综合对齐基准，从真实场景和中国互联网来源精心策划，并包括三个类别中的十三个具体任务，以及单轮和多轮对话场景。通过结合一个提示重写策略，AlignMMBench 包括 1054 个图像和 4978 个问答对。为了促进评估流程，我们提出了 CritiqueVLM，一个超越 GPT-4 评估能力的规则校准评估器。最后，我们报告了 AlignMMBench 上代表性 VLM 的性能，提供了不同 VLM 架构的能力和限制的见解。

Jun, 2024

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Nov, 2023

WildVision：使用人类偏好评估在野外的视觉语言模型

最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通过从 WV-Arena 的 8,000 个用户提交中选择 500 个高质量样本来策划 WV-Bench。WV-Bench 使用 GPT-4 作为评判标准，将每个 VLM 与 Claude-3-Sonnet 进行比较，在 WV-Arena Elo 上实现了 0.94 的斯皮尔曼相关性。这在很大程度上超过了像 MMVet，MMMU 和 MMStar 这样的其他基准测试。我们对 2 万个现实世界的交互的全面分析揭示了表现最佳的 VLMs 的失败案例中的重要见解。例如，我们发现虽然 GPT-4V 在简单的视觉识别和推理任务方面超过了 Reka-Flash，Opus 和 Yi-VL-Plus 等许多其他模型，但它仍然面临着微妙的上下文提示，空间推理，视觉想象力和专家领域知识的挑战。此外，当前的 VLMs 在受到故意引发时存在幻觉和安全问题。我们正在发布我们的聊天和反馈数据，以进一步推进 VLMs 领域的研究。

Jun, 2024

LVLM-eHub：面向大型视觉语言模型的全面评估基准

本文介绍了一个 LVLM-eHub 综合评估平台，使用 6 种多模态能力定量评估 47 个标准文本相关视觉基准，并利用在线平台提供用户级评估。结果显示，采用多轮推理评估框架可以缓解对象幻觉问题，为开发有效的 LVLM 评估流水线提供了启示。

Jun, 2023

VLind-Bench：大型视觉 - 语言模型中的语言先验测量

通过新的基准测试 VLind-Bench，本研究评估和分析了近期的大型视觉语言模型 (LVLMs)，发现几乎所有模型都过度依赖于语言先验，这对该领域构成了巨大挑战。

Jun, 2024

MMBench: 您的多模型是否是全能选手？

提出了一种新的多模式基准测试方法 MMBench，通过精心策划的数据集和结合 CircularEval 策略和 ChatGPT 的方法来对大视觉语言模型进行综合评估，旨在帮助研究社区更好地评估其模型以及鼓励未来的进步。

Jul, 2023