Apr, 2024

NORMAD: 一种用于度量大型语言模型文化适应性的基准

TL;DR我们的研究关注大型语言模型(LLMs)适应不同社会文化规范的能力,通过介绍NormAd数据集评估LLMs在不同社会文化情境中适应性的表现。研究发现LLMs在文化推理上存在困难,尤其对于来自南方全球的文化相对于以英语为中心的文化更难适应。LLMs在评估跨文化礼物给予的故事时表现较差,对于符合文化规范的故事比违背规范的故事更容易评估社会可接受性。我们的基准测试衡量了LLMs的文化适应性,并强调了使这些技术对全球受众更加公平和有用的潜力。