EMNLPSep, 2021

通过常识推理揭示叙述中的隐性性别偏见

TL;DR研究表明,预训练语言模型从其训练语料库中学习到具有社会伤害性的偏见,并可能在生成过程中重复这些偏见。本文研究模型生成故事中与主角相关的性别偏见,使用常识推理引擎揭示了其中的隐含偏见,包括主角的动机、属性、心态以及对他人的影响。我们的研究发现对于隐含的偏见与之前研究显性偏见的结论一致,例如女性角色的描写主要集中在外貌上,而男性角色则侧重于智力方面。