Nov, 2023

CRISPR:从指令跟踪语言模型中消除偏置神经元

TL;DR该研究介绍了一种用于减轻大型语言模型中指令 - 标签偏见的新的偏见缓解方法,称为 CRISPR,该方法利用属性方法识别有影响的偏见神经元并通过修剪来消除这些偏见神经元。实验结果表明,CRISPR 在减轻指令 - 标签偏见方面非常有效,在社交偏见基准上提高了语言模型的性能,同时不损害现有知识。CRISPR 是高度实用和模型无关的,具有在应对不断演变的社交偏见中灵活性的特点。