May, 2024

部分训练和隔离:缓解后门攻击

TL;DR观察了后门攻击的特点,本文提出了一种新的模型训练方法(PT),该方法通过冻结模型的一部分来训练能够隔离可疑样本的模型,然后在此基础上,对一个干净模型进行微调以抵抗后门攻击。