Oct, 2024
用一粒盐:大型语言模型在社会维度上的公平性研究
With a Grain of SALT: Are LLMs Fair Across Social Dimensions?
TL;DR本研究分析了开源大型语言模型(LLMs)在性别、宗教和种族上的偏见,填补了现有研究在偏见检测方法上的空白。采用七种偏见触发器生成偏见检测数据集,并通过对比分析不同模型的产生的文本偏见,发现LLMs在不同群体间表现出强烈的极化现象,而语言的切换则引发了各种变异与异常,揭示了文化和语境对偏见表现的影响。