May, 2024

文本模型是否存在与性别相关语言无关的偏见?

TL;DR研究通过建立一个新的框架 UnStereoEval(USE),来调查非刻板化场景下的性别偏见。结果发现,28 个测试模型中所有模型都存在较低的公平性,只有 9%-41% 的非刻板化句子表现出公正行为,这表明偏见不仅仅源自性别相关词的存在,这些结果对模型偏见的根源提出了重要问题,并强调需要更系统和综合的偏见评估。