逆向特征查询攻击:迈向鲁棒图像检索
本文提出了一种新的对抗攻击方法,通过扰动表示样式的抽象特征,包括可解释和不可解释的风格,诸如鲜艳色彩和锐利轮廓等,通过优化程序注入难以察觉的风格变化,实现深度神经网络模型误分类,我们展示了该方法产生的对抗样本比现有的非受限制攻击更加自然,并支持现有的像素空间的对抗攻击检测和防御技术难以在风格相关特征空间中保证模型的鲁棒性。
Apr, 2020
通过梯度方法可以发现虚假的区域,该文认为这些区域不是弱点而是优势,提出了一种通过检测这些区域的方法来成功检测出对抗攻击的方法,在攻击者完全了解检测机制的情况下,实现了前所未有的准确性。
Oct, 2019
本文提出了一种新的方法,利用自然进化策略在黑盒攻击下生成可靠的对抗样本,并通过新的算法在部分信息下进行有针对性的攻击,无需使用梯度,可以使用少量的请求操作,成功地对商业部署的机器学习系统进行了第一次有针对性的攻击。
Dec, 2017
本文介绍了一种新的深度神经网络对抗攻击(Feature Disruptive Attack),讨论了目前对抗攻击的缺陷,并提出了两种新的评估指标:原始标签新排名 (OLNR) 和新标签旧排名 (NLOR),旨在量化攻击带来的损害;实验证明该攻击可生成比当前先进方法更强大的对抗样本,甚至在存在多种防御措施的情况下也是如此。
Sep, 2019
本研究致力于探索高攻击成功率(Attack Success Rate,ASR)和良好通用性的高效评分型黑盒对抗攻击。我们设计了一种基于解耦特征空间的新型攻击方法,称为 DifAttack,它与现有的在整个特征空间进行操作的方法有显著不同。具体而言,DifAttack 将图像的潜在特征解耦为对抗特征和视觉特征,前者主导图像的对抗能力,而后者主要决定其视觉外观。我们通过使用从可用的替代模型通过白盒攻击方法生成的对抗实例来训练一个自编码器进行解耦。最终,DifAttack 通过根据受害模型的查询反馈迭代优化对抗特征,从而生成成功的对抗实例,同时保持视觉特征不变。此外,在针对黑盒模型进行对抗实例优化时,由于避免使用替代模型的梯度信息,我们提出的 DifAttack 在开放场景(受害模型的训练数据集未知)中固有地具有更好的攻击能力。大量实验结果表明,我们的方法在 ASR 和查询效率上取得了显著的改进,尤其在有目标攻击和开放场景中。
Sep, 2023
提出了一种基于对抗梯度方向的对抗示例检测方法,用于识别特制的输入,以欺骗机器学习分类器,此方法仅应用一个随机扰动对输入示例进行检测,实验表明,相比使用多个扰动的检测方法,该方法在对抗攻击方面表现更好。在多个数据集上的实验表明,该方法相应的 AUC-ROC 值为 97.9%和 98.6%,并且胜过了多种其他顶尖的检测方法。
Dec, 2020
本文提出了一种名为 Adversarial Feature Alignment (AFA) 的新型对抗性训练方法,旨在解决深度学习模型在安全性上平衡鲁棒性和准确性的挑战。通过利用对比学习的优化算法,AFA 减轻特征不对齐可能导致误分类的风险,并在实验中展示了其卓越性能。
Feb, 2024
本文提出了一种基于低频领域的对抗攻击方法,能够有效地减少模型查询次数,即使模型和防御策略未知,也能规避图像转换的防御策略,并展示了使用该技术欺骗 Google Cloud Vision 平台模型查询次数极低的成果。
Sep, 2018
本文提出了自适应特征对齐的方法,通过预测双 BN 结构中的融合权重,不引入任何超参数,且在不牺牲模型标准精度的情况下,有效地提高了模型的鲁棒性,并且在 CIFAR-10、SVHN 和 tiny-ImageNet 数据集上全面超越了现有的技术。
May, 2021