May, 2024

基于梯度的模型修剪消除后门攻击

TL;DR在日益关注网络安全威胁的时代,针对后门攻击的防御对于确保机器学习模型的完整性和可靠性至关重要。然而,许多现有方法要求大量数据以进行有效的缓解,给实际部署带来了重大挑战。为解决这个问题,我们提出了一种将后门攻击缓解视为一项取消学习任务的新方法。我们通过有针对性的模型修剪策略来应对这一挑战,利用取消学习损失梯度来识别和消除模型中的后门元素。基于坚实的理论洞察,我们的方法简单有效,非常适合数据有限的场景。我们的方法包括制定合适的取消学习损失以及设计适用于卷积神经网络的模型修剪技术。综合评估结果表明,相对于最先进的方法,我们提出的方法在现实数据设置下表现出更高的有效性。