Jan, 2023

测试预训练语言模型中的刻板印象

TL;DR本文研究语言模型中的偏见问题,提出了一种测试内部陈规陈瘤表现的简单方法,并探讨了该方法在性别偏见方面的应用。实验表明,使用无关的知识时,预训练的语言模型表现出一定的鲁棒性,并倾向于选择词语位置和句法结构等浅层语言线索来改变内部陈规陈瘤表现,从而为微调和评估中如何中性地处理语言模型提供了新的思路。