May, 2023
检测和减轻词嵌入中的间接刻板印象
Detecting and Mitigating Indirect Stereotypes in Word Embeddings
TL;DR本文提出了一种名为BIRM(Biased Indirect Relationship Modification)的新方法,该方法考虑到偏见因子对词对出现概率的影响,并在学习嵌入之前修改词之间的偏见关系,以缓解分布式词嵌入中的间接偏见现象。我们还扩展了词嵌入关联测试(WEAT),提出了新的测试集来测试间接的二元性别刻板印象,并展示了这些新颖测试集下的更深层次、更微妙的刻板印象存在。结果表明,该方法能够降低词嵌入中偏见程度,虽然降低了语义嵌入质量,但对更为平等的非刻板嵌入是迈向关键的一步。