Jun, 2022

不要忘记代词:消除语言模型中的性别偏见,同时保留事实性别信息

TL;DR本研究探讨大型语言模型中的性别信号,并重点关注英语文本中的两种信号类型:事实性性别信息和性别偏见,在保留事实性性别信号的同时试图减弱刻板印象。研究发现,可以通过过滤方法减少性别中立的专业名称的刻板印象,而不会对语言建模能力造成显着的恶化。这些发现可以应用于语言生成,以缓解对刻板印象的依赖同时保留性别一致的指代。