May, 2023
扩散理论作为手术刀:检测和净化预先训练语言模型中由后门或偏见引起的有毒维度
Diffusion Theory as a Scalpel: Detecting and Purifying Poisonous
Dimensions in Pre-trained Language Models Caused by Backdoor or Bias
TL;DR利用扩散理论研究微调动态过程,通过检测异常的动态,找到具有潜在问题的维度并恢复预训练权重,从而提出了Fine-purifying方法来解决预训练语言模型中可能存在的后门或偏差问题。实验证明了该方法的有效性。