Oct, 2023

识别并调整英语语言模型中负责性别偏见的 Transformer 组件

TL;DR研究探讨了三种方法来识别语言模型组件与特定输出之间的因果关系,通过对 GPT-2 进行参数有效的微调,成功减轻性别偏见,同时对整体语言建模造成的损害较小。