Aug, 2023

语言模型中的系统性攻击性刻板印象偏差(SOS)

TL;DR我们研究了语言模型中的系统性冒犯性刻板印象偏见,并提出了一种测量方法。我们验证了语言模型中的冒犯性刻板印象偏见,并研究了文献中消除该偏见的去偏方法的有效性。结果表明,所有研究的语言模型都存在冒犯性刻板印象偏见,而去偏方法对冒犯性刻板印象偏见具有负面影响。此外,结果显示冒犯性刻板印象偏见对语言模型在公平性方面具有影响。