May, 2023

扩散理论作为手术刀:检测和净化预先训练语言模型中由后门或偏见引起的有毒维度

TL;DR利用扩散理论研究微调动态过程,通过检测异常的动态,找到具有潜在问题的维度并恢复预训练权重,从而提出了Fine-purifying方法来解决预训练语言模型中可能存在的后门或偏差问题。实验证明了该方法的有效性。