Logit Pairing 方法可以欺骗基于梯度的攻击

Oct, 2018

Logit Pairing 方法可以欺骗基于梯度的攻击

Logit Pairing Methods Can Fool Gradient-Based Attacks

Marius Mosbach, Maksym Andriushchenko, Thomas Trost, Matthias Hein, Dietrich Klakow

TL;DR通过研究，我们发现 Clean Logit Pairing (CLP) 和 Logit Squeezing (LSQ) 等方法仅仅增加了制造对抗样本的梯度优化难度并未真正提高分类器的对抗鲁棒性；我们提出的 Adversarial Logit Pairing (ALP) 方法可以在对抗训练的情况下提高分类器的对抗鲁棒性，但是这种提高远远低于之前所声明的。我们得出的结论是，模型对迭代 PGD 攻击的评估严重依赖所使用的参数，并可能导致关于模型鲁棒性的错误结论。

Abstract

Recently, Kannan et al. [2018] proposed several logit regularization methods to improve the adversarial robustness of classifiers. We show that the computationally fast methods they propose - Clean Logit Pairing

adversarial robustness logit regularization adversarial examples adversarial training pgd attack

发现论文，激发创造

评估和理解对抗性对数配对的鲁棒性

评估 “对抗性逻辑对齐” 的鲁棒性，发现经过训练的网络在该防御模型下仅达到 0.6％的准确性，探讨了攻击方法的方法论和结果，揭示了 ALP 易受到对抗攻击的原因。

Jul, 2018

对抗性对数配对

本文提供了一种对抗性训练的改良技术 —— 对数配对方法，利用它可以用来防御对抗性攻击，并在 ImageNet 数据集上实现了最新的对抗性训练，并探究了其在这种情况下的有效性，同时提升了其精度表现。

Mar, 2018

标签平滑和 Logit 压缩：对抗训练的替代方案？

通过研究对抗训练提高分类器鲁棒性的机制，本研究表明这些机制可以有效地通过简单的正则化方法（包括标签平滑和对数挤压）及高斯噪声注入来模仿，并且在不使用对抗性示例的情况下，我们能够达到强大的对抗性鲁棒性 -- 通常超过对抗性训练所能达到的水平。

Oct, 2019

通过对抗性输出日志更新推进对抗鲁棒性

在这项研究中，从理论的角度分析了成功的对抗攻击周围的逻辑差异，并提出了一种新的原则，即 Adversarial Logit Update (ALU)，用于推断对抗样本的标签。基于 ALU，引入了一种新的分类范式，利用预净化和后净化的逻辑差异来提高模型的对抗鲁棒性。经过广泛实验证明，所提出的解决方案在 CIFAR-10、CIFAR-100 和 tiny-ImageNet 数据集上相对于最先进的方法具有卓越的鲁棒性能。

Aug, 2023

赔率是否真的奇怪？绕过对抗性样本的统计检测

本文提出了基于统计学检测方法的分类器适应方法，提高了检测性能；并且提出了 Logit Mimicry Attack 方法生成对抗样本，通过该方法可以避开统计学检测和分类器方法；最后，通过该文献，可以证明对抗样本的检测，统计学检测和分类器检测都不具备鲁棒性。

Jul, 2019

通过标准化逻辑输出校准和截断特征混合改进可转移的有针对性对抗攻击

本文旨在提高有针对性攻击中对抗样本的可转移性，通过在损失和特征方面提出两种不同的改进方法。首先，我们引入了一种新的规范化对数准确度校准方法，它同时考虑了对数边界和对数的标准差。其次，我们进一步研究了截断特征混合方法来减小源训练模型的影响，从而实现了额外的改进。在 ImageNet-Compatible 和 CIFAR-10 数据集上进行的实验证明了我们提出的两个组件的个别和相互优势，在黑盒有针对性攻击中取得了领先于现有方法的大幅度改进。

May, 2024

SWAP: 時序上對第二高分數利用的對抗攻擊

时间序列分类是各个领域中的一个关键任务，深度神经模型在时间序列分类任务中展现出了卓越的性能。然而，这些模型容易受到对抗性攻击的影响，我们提出了一种名为 SWAP 的全新攻击方法，该方法能够提高次优预测的置信度，并通过最小化 Kullback-Leibler 散度来实现。实验证明，SWAP 方法取得了最先进的性能，攻击成功率超过 50%，相比现有方法提高了 18%。

Sep, 2023

通过概率紧凑的损失函数和对数限制来提高对抗鲁棒性

本研究提出了一种基于概率紧凑性的损失函数，称为 Probabilistically Compact (PC) 损失函数，采用 logit 限制来提高卷积神经网络对抗攻击的鲁棒性，减少误分的风险。该方法在大规模数据集上进行了白盒和黑盒攻击的实验，证明了该方法的有效性。

Dec, 2020

那是可疑的反应！”：解读分类器得分变化以检测自然语言处理对抗攻击

本研究介绍了一种针对自然语言处理中对抗文本样本的模型无关检测器，该检测器能在不同的 NLP 模型、数据集和单词级攻击中识别出对抗性输入，并显示出极强的泛化能力。

Apr, 2022

关于对抗训练的泛化性质

本论文研究了一种泛用的对抗训练算法的泛化性能，并考虑了线性回归模型和两层神经网络（使用平方损失）在低维和高维情况下的表现，其中，我们发现数据内插会防止对抗性鲁棒估算器的一致性，因此，我们引入 L1 惩罚，在高维对抗学习中，证明了它可以导致一致的对抗性鲁棒估计。

Aug, 2020