Jun, 2024

恶魔在神经元中:解释和减轻预训练语言模型中的社会偏见

TL;DR该论文提出了 "社会偏见神经元" 的概念,并介绍了一种能够精确定位和抑制与社会偏见相关的单元的方法,从而降低预训练语言模型中的社会偏见。该方法通过使用情感提示词激发与特定情感相关的敏感词和人口统计数据,通过测量其产生的偏差来定位并抑制造成不良行为的特定神经元。该模型在降低社会偏见的同时保持了较低的成本和良好的语言建模能力。