Jan, 2025
MBTSAD:基于标记拆分和注意力蒸馏减少语言模型中的后门攻击
MBTSAD: Mitigating Backdoors in Language Models Based on Token Splitting
and Attention Distillation
TL;DR本研究解决了语言模型在面临后门攻击时的脆弱性问题,特别是在没有预训练权重的情况下。我们提出的MBTSAD方法利用一小部分干净数据,重训练后门模型并应用注意力蒸馏,实验证明其在后门削减方面的效果与依赖预训练权重的方法相当,同时在干净数据上保持了性能。这一方法在无预训练权重的情况下具有更高的实用性。