Jun, 2023

神经偏振器:通过纯化中毒特征的轻量级有效后门防御

TL;DR提出了一种新的反向攻击防御方法,通过插入可学习的神经偏振器来过滤触发信息,同时保留良性信息,从而净化受污染的样本,并仅需要学习一层额外的神经偏振器,比基于微调的防御方法更高效少了干净的数据。