Mar, 2024

扩散去噪作为清洗标签中毒的认证防御

TL;DR我们提出了一种经过认证的防御方法来对抗无标签污染攻击,通过使用扩散模型对受损的训练数据进行处理,我们在七种无标签污染攻击中将攻击成功率降低到 0-16%,同时几乎不影响测试准确率。与现有的对抗无标签攻击的防御方法相比,我们的防御方法在降低攻击成功率和保持模型效用方面表现最好。我们的结果强调未来需要研究开发更强大的无标签攻击方法,并将我们的认证而实用的防御方法作为评估这些攻击方法的强有力的基准。