M5 - 评估大型多模态模型在多语言和多文化视觉语言任务中的性能的多样化基准

Jul, 2024

M5 - 评估大型多模态模型在多语言和多文化视觉语言任务中的性能的多样化基准

M$\mathbf5$ -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks

HTML

PDF

Florian Schneider, Sunayana Sitaram

TL;DR自从ChatGPT发布以来，自然语言处理领域取得了快速进展，尤其是在大规模语言模型（LLMs）及其多模态对应模型（LMMs）方面。然而，尽管这些模型具有令人印象深刻的能力，但在不同语言和文化背景下，LLMs常常表现出明显的性能差异，这一点在各种纯文本基准测试中得到证实。然而，目前的研究缺乏多模态视觉语言环境中的这种基准测试。本研究通过引入M5，第一个旨在在多语言和多文化环境中评估LMMs在不同视觉语言任务上的综合性基准测试，填补了这一空白。M5包括八个数据集，涵盖五个任务和41种语言，并专注于少数语言和文化多样性图像。此外，我们还引入了两个新的数据集M5-VGR和M5-VLOD，其中包括一个新的视觉语言异常检测任务，在该任务中，所有评估的开源模型都无法显著超过随机基线。通过广泛的评估和分析，我们强调了高资源语言和低资源语言之间大量任务无关性能差异。此外，我们还表明，在多语言环境中，更大的模型不一定比较小的模型表现更好。

Abstract

Since the release of chatgpt, the field of natural language processing has experienced rapid advancements, particularly in large language models<