May, 2024

视觉语言模型的文化意识程度如何?

TL;DR我们的研究比较了四种流行的视觉语言模型在识别文化特定的图像信息并创建准确且具有文化敏感性的图像标题方面的性能,并提出了一个新的评估指标,即文化意识分数(CAS)。我们还提供了一个带有真实标签的数据集 MOSAIC-1.5k,其中包含了具有文化背景和上下文的图像,以及一个带有分配的文化意识分数的数据集,可用于未被看到的数据。创建具有文化适应性的图像标题对于科学研究非常有价值,对许多实际应用也有益处。我们希望通过向公众提供数据集和文化意识分数,促进全球范围内对于尊重和庆祝全球多样性的文化敏感性 AI 系统的更深入融合以及更多相关领域的进一步研究的发展。