Sep, 2023

电路打破:有针对性地消除模型行为

TL;DR通过消除模型组件之间少量的因果路径的方法,我们提出了一种消除不良行为的新方法,以禁用负责产生不良行为的计算电路,从而改善语言模型的性能。在减少 GPT-2 有害语言生成的情景中,我们发现仅消除 11.6K 个因果边中的 12 个边可有效减轻有害生成,并对其他输入的性能造成最小的恶化。