Oct, 2024

文化基准:一个健壮、多样且具有挑战性的基准,用于衡量大型语言模型的(缺乏)文化知识

TL;DR本研究旨在解决现有大型语言模型在文化知识评估方面的不足,提出了一种新的评估工具CulturalBench,包含1,227个涵盖45个全球区域的问题。研究发现,尽管最先进的模型在某些区域表现出色,但普遍在南美和中东的问题上表现不佳,尤其在回答多答案问题时趋向于单一答案。