Apr, 2023

探究稳健和生成模型之间的联系

TL;DR本研究连接了利用对抗训练 (adversarial training,AT) 训练的鲁棒判别器和基于能量的生成模型 (Energy-based Models,EBM),通过分解判别器的损失并展示判别模型也能意识到输入数据密度实现。研究发现,令人惊讶的是,输入空间中未定向攻击点非常可能在判别分类器中隐藏的生成模型里 —— 即 EBM 中的能量非常低。我们展示了两个证据:未定向攻击比自然数据甚至更可能出现,当攻击强度增强时,它们的可能性也会增加。这使得我们能够轻松检测它们,并设计了一种名为 High-Energy PGD 的新型攻击方法,它能欺骗分类器但具有与数据集相似的能量。