Jul, 2023

共享对抗样本的退学:通过退学共享的对抗样本来减轻后门问题

TL;DR通过建立后门风险和对抗风险之间的联系,本文提出了一种用于净化后门模型的新的上界,该上界主要捕捉后门模型和净化模型之间的共享对抗示例上的风险,这进一步提出了一个用于缓解后门的新的双层优化问题,并提出了共享对抗消除方法 (SAU),通过生成共享对抗示例,并通过对这些示例的遗忘来减轻后门效应,从而达到了强大的后门防御性能。