逆向特征查询攻击：迈向鲁棒图像检索

Sep, 2018

逆向特征查询攻击：迈向鲁棒图像检索

Query Attack via Opposite-Direction Feature:Towards Robust Image Retrieval

Zhedong Zheng, Liang Zheng, Yi Yang, Fei Wu

TL;DR该研究提出了一种新的针对图像检索任务的白盒对抗攻击方法，名为 ODFA，该方法可以利用特征级别的对抗梯度和表征空间中的特征距离，生成具有欺骗性的查询，而非预测类别，这大大提高了攻击成功率，并且这种对抗查询具有很好的迁移性。

Abstract

Most existing works of adversarial samples focus on attacking image recognition models, while little attention is paid to the image retrieval task. In this paper, we identify two inherent challenges in applying prevailing image recognition attack methods to →

adversarial queries image retrieval feature-level adversarial gradients white-box attack opfa

发现论文，激发创造

基于特征空间的对抗攻击

本文提出了一种新的对抗攻击方法，通过扰动表示样式的抽象特征，包括可解释和不可解释的风格，诸如鲜艳色彩和锐利轮廓等，通过优化程序注入难以察觉的风格变化，实现深度神经网络模型误分类，我们展示了该方法产生的对抗样本比现有的非受限制攻击更加自然，并支持现有的像素空间的对抗攻击检测和防御技术难以在风格相关特征空间中保证模型的鲁棒性。

Apr, 2020

一种新的对抗图像防御方法：将弱点转化为优势

通过梯度方法可以发现虚假的区域，该文认为这些区域不是弱点而是优势，提出了一种通过检测这些区域的方法来成功检测出对抗攻击的方法，在攻击者完全了解检测机制的情况下，实现了前所未有的准确性。

Oct, 2019

高效率黑盒对抗样本查询（已被取代）

本文提出了一种新的方法，利用自然进化策略在黑盒攻击下生成可靠的对抗样本，并通过新的算法在部分信息下进行有针对性的攻击，无需使用梯度，可以使用少量的请求操作，成功地对商业部署的机器学习系统进行了第一次有针对性的攻击。

Dec, 2017

FDA: 特征破坏攻击

本文介绍了一种新的深度神经网络对抗攻击（Feature Disruptive Attack），讨论了目前对抗攻击的缺陷，并提出了两种新的评估指标：原始标签新排名 (OLNR) 和新标签旧排名 (NLOR)，旨在量化攻击带来的损害；实验证明该攻击可生成比当前先进方法更强大的对抗样本，甚至在存在多种防御措施的情况下也是如此。

Sep, 2019

DifAttack: 通过分离的特征空间进行高效查询的黑盒攻击

本研究致力于探索高攻击成功率（Attack Success Rate，ASR）和良好通用性的高效评分型黑盒对抗攻击。我们设计了一种基于解耦特征空间的新型攻击方法，称为 DifAttack，它与现有的在整个特征空间进行操作的方法有显著不同。具体而言，DifAttack 将图像的潜在特征解耦为对抗特征和视觉特征，前者主导图像的对抗能力，而后者主要决定其视觉外观。我们通过使用从可用的替代模型通过白盒攻击方法生成的对抗实例来训练一个自编码器进行解耦。最终，DifAttack 通过根据受害模型的查询反馈迭代优化对抗特征，从而生成成功的对抗实例，同时保持视觉特征不变。此外，在针对黑盒模型进行对抗实例优化时，由于避免使用替代模型的梯度信息，我们提出的 DifAttack 在开放场景（受害模型的训练数据集未知）中固有地具有更好的攻击能力。大量实验结果表明，我们的方法在 ASR 和查询效率上取得了显著的改进，尤其在有目标攻击和开放场景中。

Sep, 2023

基于频率的语义相似性不可察觉对抗攻击

通过在特征表示上进行对抗攻击，使用语义相似性对分类器进行攻击，同时使用低频率约束，保证对抗样本和原始样本的感官相似性和跨数据集泛化。

Mar, 2022

利用对抗梯度方向进行对抗样本检测，战胜攻击者

提出了一种基于对抗梯度方向的对抗示例检测方法，用于识别特制的输入，以欺骗机器学习分类器，此方法仅应用一个随机扰动对输入示例进行检测，实验表明，相比使用多个扰动的检测方法，该方法在对抗攻击方面表现更好。在多个数据集上的实验表明，该方法相应的 AUC-ROC 值为 97.9％和 98.6％，并且胜过了多种其他顶尖的检测方法。

Dec, 2020

对抗特征对齐：通过对抗训练在深度学习中平衡鲁棒性和准确性

本文提出了一种名为 Adversarial Feature Alignment (AFA) 的新型对抗性训练方法，旨在解决深度学习模型在安全性上平衡鲁棒性和准确性的挑战。通过利用对比学习的优化算法，AFA 减轻特征不对齐可能导致误分类的风险，并在实验中展示了其卓越性能。

Feb, 2024

低频对抗扰动

本文提出了一种基于低频领域的对抗攻击方法，能够有效地减少模型查询次数，即使模型和防御策略未知，也能规避图像转换的防御策略，并展示了使用该技术欺骗 Google Cloud Vision 平台模型查询次数极低的成果。

Sep, 2018

针对对抗训练的自适应特征对齐

本文提出了自适应特征对齐的方法，通过预测双 BN 结构中的融合权重，不引入任何超参数，且在不牺牲模型标准精度的情况下，有效地提高了模型的鲁棒性，并且在 CIFAR-10、SVHN 和 tiny-ImageNet 数据集上全面超越了现有的技术。

May, 2021