Mar, 2024

在大型语言模型中定位和缓解性别偏见

TL;DR本研究提出了一种基于因果中介分析的方法来追踪大型语言模型中不同组件激活的因果效应,并在此基础上提出了最小二乘去偏(LSDM)方法,用于减少职业代词中的性别偏见,实验结果表明 LSDM 方法比其他基线方法更有效地减少模型中的性别偏见,同时在其他方面完全保留了模型的能力。