黑盒学习系统中对抗样本的阻断可迁移性

Mar, 2017

黑盒学习系统中对抗样本的阻断可迁移性

Blocking Transferability of Adversarial Examples in Black-Box Learning Systems

Hossein Hosseini, Yize Chen, Sreeram Kannan, Baosen Zhang, Radha Poovendran

TL;DR本文提出了一种训练方法来防止黑盒学习系统受到对抗性示例的攻击，该方法通过在输出类集中增加一个 NULL 标签并训练分类器将对抗性示例分类为 NULL 来阻止其可转让性。实验表明该方法能够有效抵御对抗性示例的攻击，同时在干净数据上保持准确度。

Abstract

Advances in machine learning (ML) have led to its adoption as an integral component in many applications, including banking, medical diagnosis, and driverless cars. To further broaden the use of ML models, cloud-based services offered by Microsoft, Amazon, Google, and others have devel

machine learning adversarial examples black-box systems classifier transferability

发现论文，激发创造

机器学习中的可迁移性：从现象到黑盒攻击利用对抗样本

对机器学习模型的黑盒攻击是可能的，即使它们的结构不同。通过生成对抗性样本，并利用受害者模型标记合成训练集，攻击者可以训练出自己的替代模型，并将对抗性样本转移到受害者模型中实施攻击，该方法可以使用新的技术使攻击过程更加有效率，在 Amazon 和 Google 等公司的商业机器学习分类系统中展示了攻击的有效性。

May, 2016

探究可转移的对抗样本和黑盒攻击

本文首次对大规模数据集和大型模型进行了对抗样本的可迁移性的研究，同时也是首次研究了设计有目标的对抗样本在其目标标签之间的可转移性。通过新颖的集成方法，本文发现大量有目标的对抗样本可以成功地与其目标标签一起转移，并且这些使用集成方法生成的对抗样本可以成功地攻击黑匣子图像分类系统 Clarifai.com。

Nov, 2016

黑盒对抗迁移性：一个基于网络安全的经验研究

在网络安全领域中，人工智能的快速发展引起了重大安全关注，深度学习模型在对抗性攻击中的脆弱性是主要问题之一，该研究的关键贡献是在网络攻击检测系统中经验性地测试黑盒对抗转移现象，并验证了任何深度学习模型都极易受到对抗攻击的影响，即使攻击者无法访问目标模型的内部细节，白盒对抗攻击相比黑盒对抗攻击具有更严重的影响。因此，有必要研究和探索对抗性防御技术以增强深度学习模型对对抗攻击的鲁棒性。

Apr, 2024

机器学习的实用黑盒攻击

该研究介绍了一种利用黑盒攻击实现远程控制机器学习模型的方法，该攻击方式不需要了解模型内部或训练数据。研究表明该黑盒攻击策略可适用于许多机器学习技术，并且能够规避之前发现的防御策略。

Feb, 2016

深度神经网络中对抗性样本的可迁移性调查

深度神经网络的关键问题之一是对抗性攻击和转移性，考虑到安全性和未来的发展，需要加强对抗性漏洞的防御。

Oct, 2023

规模化对抗机器学习

将对抗训练应用于 ImageNet，并提出了如何将对抗训练成功扩展到大型模型和数据集的建议，发现对抗训练能增加对单步攻击方法的鲁棒性，单步攻击方法比多步攻击方法更难以传递，使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应，因为对抗样本构建过程使用真实标签，模型可以学习利用构建过程的规律，使经过对抗训练的模型在对抗示例上表现比正常示例更好。

Nov, 2016

理解和提升对抗样本的可迁移性

本文系统研究了影响对抗样本传递性的两类因素，包括网络结构、测试精度等模型特定因素和构建对抗样本的损失函数的局部光滑性。基于这些理解，提出了一种简单而有效的策略来增强传递性，称为方差降低攻击，因为它利用方差降低梯度来生成对抗样本，实验结果表明其有效性。

Feb, 2018

可转移对抗样本的空间

本文提出测量对抗样本空间维度的新方法，发现对抗性子空间在很大的维度上相互重叠并且共享在不同模型之间，通过探究模型决策边界的相似性和转移攻击的局限性，本文表明可能存在抵抗传输攻击的防御方法。

Apr, 2017

元学习通用黑盒对抗攻击

文章提出了利用历史攻击反馈信息来降低黑盒对抗攻击的查询成本，通过开发一个元学习框架来训练元 Perturbation 生成器，以产生有效的干扰，同时利用模型级对抗可迁移性来训练元生成器，以帮助攻击目标模型。这个框架可以与任何现成的基于查询攻击方法结合使用，以提高攻击性能。

Jan, 2023

生成可传递对抗样本的常识学习

本文研究黑盒攻击的一种重要类型 —— 基于转移的对抗攻击，并提出了一种通用知识学习框架，通过构建多教师框架来减少模型特定特征，获得更好的输出分布，加强对抗转移性能，同时通过对学生和教师模型之间的梯度施加约束来进一步缓解输出不一致问题和增强对抗转移性能。实验表明，所提出的方法可以显著提高对抗转移性能。

Jul, 2023