Jul, 2024

在能量基模型的视角下对鲁棒分类器的更深入理解

TL;DR通过将鲁棒的判别分类器重新解释为基于能量的模型,我们提出了对对抗训练动态的新视角;通过对对抗训练过程中的能量景观进行分析,我们揭示了非目标攻击在模型视角下生成的对抗性图像比原始数据更加集中(能量更低),而有目标攻击则恰恰相反;基于我们的分析,我们提出了一种新的理论和实践结果,展示了如何通过解释对抗训练能量动力学来获得更好的理解:(1)对抗训练动态由三个阶段控制,并且在第三阶段发生鲁棒过拟合,自然能量与对抗能量之间出现剧烈的分歧;(2)通过将TRADES(TRadeoff-inspired Adversarial DEfense via Surrogate-loss minimization)的损失重新定义为能量的形式,我们显示TRADES通过将自然能量与对抗能量对齐的方式隐式减轻了过拟合问题;(3)我们经验性地表明,所有最新的鲁棒分类器都在平滑能量景观,我们通过基于基于能量的模型对理解对抗训练和加权损失函数的多个研究进行了统一。在严谨的证据的驱动下,我们提出了一种加权能量对抗训练(WEAT)的新型样本加权方案,其鲁棒性能在多个基准测试上与最先进的方法相匹配,在CIFAR-10和SVHN上进一步超越,在CIFAR-100和Tiny-ImageNet上也取得了优异的性能。我们进一步展示了鲁棒分类器的生成能力的强度和质量各不相同,并提供了一种简单的方法来提高这种能力,在没有进行生成建模训练的情况下,利用鲁棒分类器获得了显著的Inception Score(IS)和FID。我们的结果复现代码可在此链接获得:[http URL]。