Aug, 2022

去偏见的大规模语言模型仍将穆斯林与独特的暴力行为相关联

TL;DR研究表明,GPT-3模型在被问及穆斯林时生成暴力文本补全的倾向性比基督徒和印度教徒更强,但最近的两项预注册实验尝试均未能证明其存在严重的偏差,而更换为消除偏见和有毒输出的Fine-tuned Instruct Series版本的GPT-3模型中则表现出了最小的偏见。然而,使用与宗教相关的常见名称则显著增加了暴力文本补全,也暴露出更强的二阶偏见,而无论提示格式如何,宗教特定的暴力主题均包含高度冒犯性的观点。因此,我们需要对大型语言模型进行更多的去偏见工作,以消除高阶模式和联想。