DifAttack: 通过分离的特征空间进行高效查询的黑盒攻击

Sep, 2023

DifAttack: 通过分离的特征空间进行高效查询的黑盒攻击

DifAttack: Query-Efficient Black-Box Attack via Disentangled Feature Space

Liu Jun, Zhou Jiantao, Zeng Jiandian, Jinyu Tian

TL;DR本研究致力于探索高攻击成功率（Attack Success Rate，ASR）和良好通用性的高效评分型黑盒对抗攻击。我们设计了一种基于解耦特征空间的新型攻击方法，称为 DifAttack，它与现有的在整个特征空间进行操作的方法有显著不同。具体而言，DifAttack 将图像的潜在特征解耦为对抗特征和视觉特征，前者主导图像的对抗能力，而后者主要决定其视觉外观。我们通过使用从可用的替代模型通过白盒攻击方法生成的对抗实例来训练一个自编码器进行解耦。最终，DifAttack 通过根据受害模型的查询反馈迭代优化对抗特征，从而生成成功的对抗实例，同时保持视觉特征不变。此外，在针对黑盒模型进行对抗实例优化时，由于避免使用替代模型的梯度信息，我们提出的 DifAttack 在开放场景（受害模型的训练数据集未知）中固有地具有更好的攻击能力。大量实验结果表明，我们的方法在 ASR 和查询效率上取得了显著的改进，尤其在有目标攻击和开放场景中。

Abstract

This work investigates efficient score-based black-box adversarial attacks with a high Attack Success Rate (asr) and good generalizability. We design a novel attack method based on a →

adversarial attacks disentangled feature asr autoencoder open-set scenario

发现论文，激发创造

DifAttack++：跨领域中基于层级解缠特征空间的查询高效黑盒对抗攻击

研究了高攻击成功率和良好泛化性的高效基于评分的黑盒对抗攻击方法，提出了一种基于分层解耦特征空间和跨域的新颖攻击方法 DifAttack++，通过自编码器和我们特别设计的 Hierarchical Decouple-Fusion（HDF）模块将图像的潜在特征分解为对抗特征（AF）和视觉特征（VF），在黑盒攻击阶段， DifAttack++ 根据受害模型的查询反馈迭代优化 AF，生成成功的对抗样本，同时保持 VF 不变，实验证明我们的方法在攻击成功率和查询效率方面优于现有方法，并且对抗样本具有更好的视觉质量。

Jun, 2024

基于特征空间的对抗攻击

本文提出了一种新的对抗攻击方法，通过扰动表示样式的抽象特征，包括可解释和不可解释的风格，诸如鲜艳色彩和锐利轮廓等，通过优化程序注入难以察觉的风格变化，实现深度神经网络模型误分类，我们展示了该方法产生的对抗样本比现有的非受限制攻击更加自然，并支持现有的像素空间的对抗攻击检测和防御技术难以在风格相关特征空间中保证模型的鲁棒性。

Apr, 2020

探索除人脸识别之外的去耦合特征表示

提出了一种基于最小监督学习的弱化但互补人脸特征提取方法，通过身份验证构建身份提取和去除自编码器（D2AE）框架，该框架基于两个流中的提示设计的，具有拟人化和编辑人脸的优点。

Apr, 2018

通过特征空间微调提升有针对性的可迁移性

在这篇论文中，通过在特征空间进行微调，我们提出了一种解决针对未知模型的有针对性对抗样本（AE）传递性问题的方法，实验证明简单的迭代攻击可以产生与资源密集型方法相媲美甚至更好的传递效果。

Jan, 2024

逆向特征查询攻击：迈向鲁棒图像检索

该研究提出了一种新的针对图像检索任务的白盒对抗攻击方法，名为 ODFA，该方法可以利用特征级别的对抗梯度和表征空间中的特征距离，生成具有欺骗性的查询，而非预测类别，这大大提高了攻击成功率，并且这种对抗查询具有很好的迁移性。

Sep, 2018

使用对抗训练解缠混合因素的深度表达

我们提出了一种有条件的生成模型，用于学习将标记的观察结果的隐藏变化因素分离并分解成互补代码，实验结果表明该方法能够推广到未见过的类别和内类别变异。

Nov, 2016

通过特征解缠缚来缓解对抗鲁棒性中的特征差距

我们提出了一种基于潜在特征解缠的方法，以明确建模并进一步消除导致特征差异的潜在特征，从而提高深度神经网络对抗样本的鲁棒性。实证评估表明，我们的方法超越了现有的对抗微调方法和对抗训练基线。

Jan, 2024

用特征可分性提高对抗训练

本篇论文旨在探究防御对抗攻击的神经网络算法，在研究中发现传统的对抗训练没有学习到更好的特征表示方法，同时也存在过度拟合和泛化性能差的问题。为解决这些问题，引入了对抗训练图（ATG）的概念，提出基于 ATG 的对抗训练与特征可分性（ATFS）的新框架，该框架能够提高特征的内部类相似性并增加类间特征方差，从而明显提高了算法的性能。

May, 2022

通过限制深度神经网络的隐藏空间来进行对抗性防御

针对深度神经网络易受对抗性攻击的问题，本文提出了一种基于特征重构的防御方法，具体来说，通过将每个类别的特征强制限制在一个凸多面体内，使得网络学习到的决策区域更加独特和远离各个类别的边界，提高了网络的鲁棒性，同时在干净图像的分类性能上不会退化。

Apr, 2019

具有层次特征隐藏的医学图像对抗性

通过对传统医疗对抗样本的特征进行深入研究，我们发现医学影像的反应性防御机制存在缺陷，并提出一种简单而有效的层次特征约束 (HFC) 方法，通过隐藏目标特征分布中的对抗特征，更高效地绕过一系列最先进的医学对抗样本检测器，这为未来开发更强大的防御手段提供了可能性。

Dec, 2023