对抗性对数配对

Mar, 2018

Adversarial Logit Pairing

Harini Kannan, Alexey Kurakin, Ian Goodfellow

TL;DR本文提供了一种对抗性训练的改良技术 —— 对数配对方法，利用它可以用来防御对抗性攻击，并在 ImageNet 数据集上实现了最新的对抗性训练，并探究了其在这种情况下的有效性，同时提升了其精度表现。

Abstract

In this paper, we develop improved techniques for defending against adversarial examples at scale. First, we implement the state of the art version of adversarial training at unprecedented scale on →

adversarial examples adversarial training logit pairing imagenet defense

发现论文，激发创造

评估和理解对抗性对数配对的鲁棒性

评估 “对抗性逻辑对齐” 的鲁棒性，发现经过训练的网络在该防御模型下仅达到 0.6％的准确性，探讨了攻击方法的方法论和结果，揭示了 ALP 易受到对抗攻击的原因。

Jul, 2018

Logit Pairing 方法可以欺骗基于梯度的攻击

通过研究，我们发现 Clean Logit Pairing (CLP) 和 Logit Squeezing (LSQ) 等方法仅仅增加了制造对抗样本的梯度优化难度并未真正提高分类器的对抗鲁棒性；我们提出的 Adversarial Logit Pairing (ALP) 方法可以在对抗训练的情况下提高分类器的对抗鲁棒性，但是这种提高远远低于之前所声明的。我们得出的结论是，模型对迭代 PGD 攻击的评估严重依赖所使用的参数，并可能导致关于模型鲁棒性的错误结论。

Oct, 2018

标签平滑和 Logit 压缩：对抗训练的替代方案？

通过研究对抗训练提高分类器鲁棒性的机制，本研究表明这些机制可以有效地通过简单的正则化方法（包括标签平滑和对数挤压）及高斯噪声注入来模仿，并且在不使用对抗性示例的情况下，我们能够达到强大的对抗性鲁棒性 -- 通常超过对抗性训练所能达到的水平。

Oct, 2019

通过对抗性输出日志更新推进对抗鲁棒性

在这项研究中，从理论的角度分析了成功的对抗攻击周围的逻辑差异，并提出了一种新的原则，即 Adversarial Logit Update (ALU)，用于推断对抗样本的标签。基于 ALU，引入了一种新的分类范式，利用预净化和后净化的逻辑差异来提高模型的对抗鲁棒性。经过广泛实验证明，所提出的解决方案在 CIFAR-10、CIFAR-100 和 tiny-ImageNet 数据集上相对于最先进的方法具有卓越的鲁棒性能。

Aug, 2023

通过标准化逻辑输出校准和截断特征混合改进可转移的有针对性对抗攻击

本文旨在提高有针对性攻击中对抗样本的可转移性，通过在损失和特征方面提出两种不同的改进方法。首先，我们引入了一种新的规范化对数准确度校准方法，它同时考虑了对数边界和对数的标准差。其次，我们进一步研究了截断特征混合方法来减小源训练模型的影响，从而实现了额外的改进。在 ImageNet-Compatible 和 CIFAR-10 数据集上进行的实验证明了我们提出的两个组件的个别和相互优势，在黑盒有针对性攻击中取得了领先于现有方法的大幅度改进。

May, 2024

赔率是否真的奇怪？绕过对抗性样本的统计检测

本文提出了基于统计学检测方法的分类器适应方法，提高了检测性能；并且提出了 Logit Mimicry Attack 方法生成对抗样本，通过该方法可以避开统计学检测和分类器方法；最后，通过该文献，可以证明对抗样本的检测，统计学检测和分类器检测都不具备鲁棒性。

Jul, 2019

可学习的边界引导对抗训练

本研究通过引入已训练的干净模型的分类边界来指导对抗训练，约束对抗性模型的 logits 与自然数据下的干净模型的 logits 相似，从而提高了模型的鲁棒性和自然数据的准确性。实验证明，该方法在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 上具有新的最先进的鲁棒性，无需额外的真实或合成数据。

Nov, 2020

关于成功和简单性的再探：可传递的有针对性攻击

通过发现简单易用的可转移攻击可以取得很高的目标转移性能，本文提出了新的针对传输设置的评估方法，并显示了使用 logit loss 方法生成目标通用对抗扰动的有效性。

Dec, 2020

免费的对抗训练！

通过回收在更新模型参数过程中计算的渐变信息，提出了一种消除生成对抗样本开销的自由对抗训练算法，这个算法在 CIFAR-10 和 CIFAR-100 上达到了与 PGD 对抗训练相当的稳健性，其相比于自然训练的额外成本微不足道，并且可以比其他强对抗训练方法快 7 ~ 30 倍。使用单个带 4 个 P100 GPU 的工作站和 2 天运行时间，我们可以训练出针对大规模 ImageNet 分类任务的稳健模型，其对 PGD 攻击的准确率仍可保持在 40％左右。

Apr, 2019

那是可疑的反应！”：解读分类器得分变化以检测自然语言处理对抗攻击

本研究介绍了一种针对自然语言处理中对抗文本样本的模型无关检测器，该检测器能在不同的 NLP 模型、数据集和单词级攻击中识别出对抗性输入，并显示出极强的泛化能力。

Apr, 2022