Dec, 2023

关注隐藏者:探索加强对抗训练的隐藏威胁

TL;DR通过重新思考和重新定义对抗性训练的最小最大优化问题,我们提出了一种称为 HFAT 的广义对抗性训练算法。HFAT 引入了迭代演化优化策略来简化优化问题,并采用了辅助模型来揭示隐藏者,有效地结合了标准对抗性训练和隐藏者的优化方向。此外,我们还介绍了一种自适应加权机制,可以在不同的训练阶段帮助模型在对抗性示例和隐藏者之间适应地调整其关注点。我们通过大量的实验证明了我们方法的有效性,并确保 HFAT 具有更高的鲁棒性和准确性。