Mar, 2024

对 SSL 后门攻击的一种极简防御方法

TL;DR自我监督学习(SSL)已经成为应对无人监督数据环境的一种强大范例。然而,最近的研究表明 SSL 容易受到后门攻击的威胁,控制模型以适应攻击者目的。本文引入一种基于频率的新型后门攻击:CTRL,并提出了两种对抗 SSL 中基于频率攻击的防御策略:一种适用于模型训练前,另一种适用于模型推断期间。使用自监督学习的对象分类作为下游任务,我们展示了成功的防御策略,无需重新训练模型。