Mar, 2024

IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集

TL;DRIndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集,它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语,并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度,同时还针对交叉偏见构建了相应的资源。该数据集包含 800 个过滤后的句子和用于不同人口统计的偏见测量元组,提供英语和印地语两种语言的版本,规模可与现有的基准数据集相媲美。通过使用 IndiBias,我们比较了十种不同的语言模型在多个偏见测量指标上的表现,发现语言模型在大多数交叉群体中表现出更多偏见。