WorldValuesBench：一种大规模多文化价值意识语言模型的基准测试数据集

Apr, 2024

WorldValuesBench：一种大规模多文化价值意识语言模型的基准测试数据集

WorldValuesBench: A Large-Scale Benchmark Dataset for Multi-Cultural Value Awareness of Language Models

Wenlong Zhao, Debanjan Mondal, Niket Tandon, Danica Dillion, Kurt Gray...

TL;DR本文介绍了WorldValuesBench，这是一个全球多元化的大规模基准数据集，用于多元文化价值预测任务，要求模型基于人口统计上下文生成对价值问题的评分回答。该数据集源自一个有影响力的社会科学项目World Values Survey（WVS），从全球94728名参与者那里收集了数百个价值问题（例如社会、经济、伦理学）。我们从WVS的回答中构建了超过2000万个“(人口统计属性，价值问题) → 回答”的例子。我们使用这个数据集进行了案例研究，并表明这个任务对于强大的开源和闭源模型来说是具有挑战性的。在仅11.1%、25.0%、72.2%和75.0%的问题上，Alpaca-7B、Vicuna-7B-v1.5、Mixtral-8x7B-Instruct-v0.1和GPT-3.5 Turbo分别可以实现与人类归一化答案分布的Wasserstein 1距离小于0.2。WorldValuesBench为研究语言模型中的多元文化价值意识的局限性和机遇开辟了新的研究领域。

Abstract

The awareness of multi-cultural human values is critical to the ability of language models (LMs) to generate safe and personalized responses. However, this awareness of LMs has been insufficiently studied, since