Apr, 2024

NORMAD: 一种用于度量大型语言模型文化适应性的基准

TL;DR我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍 NormAd 数据集评估 LLMs 在不同社会文化情境中适应性的表现。研究发现 LLMs 在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs 在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了 LLMs 的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。