Jun, 2023
神经偏振器:通过纯化中毒特征的轻量级有效后门防御
Neural Polarizer: A Lightweight and Effective Backdoor Defense via Purifying Poisoned Features
Mingli Zhu, Shaokui Wei, Hongyuan Zha, Baoyuan Wu
TL;DR提出了一种新的反向攻击防御方法,通过插入可学习的神经偏振器来过滤触发信息,同时保留良性信息,从而净化受污染的样本,并仅需要学习一层额外的神经偏振器,比基于微调的防御方法更高效少了干净的数据。