机器学习系统面临着对抗性示例的威胁,尽管在受限的黑盒条件下攻击成功率令人担忧。本研究旨在对有状态防御进行理论描述,提供了攻击检测和假阳性率之间的权衡的上限,并分析了特征提取器 / 底层问题域的性质对此权衡的影响。通过在多个数据集和有状态防御上进行实证评估,支撑了我们的理论发现。
Jul, 2023
本文提出了一种新的方法,利用自然进化策略在黑盒攻击下生成可靠的对抗样本,并通过新的算法在部分信息下进行有针对性的攻击,无需使用梯度,可以使用少量的请求操作,成功地对商业部署的机器学习系统进行了第一次有针对性的攻击。
Dec, 2017
本文通过定义三种现实世界分类系统的威胁模型(查询限制,部分信息和仅标签),并开发了新的攻击方法,成功的攻击了一个 ImageNet 分类器,并成功的突破了 Google Cloud Vision API 的限制来进行有针对性的黑盒攻击。
Apr, 2018
该论文介绍了对各种黑盒对抗攻击和防御技术的全面比较研究,旨在提高模型的鲁棒性。
Dec, 2019
本文探究了 DNN 的黑盒攻击方案,使用现有的白盒攻击方法产生的采样样本进行训练替代模型,并提出主动学习策略和多样性准则以优化其表现,实验证明该方法可以将查询数量减少超过 90% 并保持黑盒攻击成功率。
Sep, 2018
本论文提出了一种新颖的防御方法来对抗黑盒攻击,通过针对每个查询使用一个针对攻击者目标优化的原始样本的对抗反案例来对抗黑盒查询,有效地为防御者引入了不对称性,从而既有效地误导了攻击者寻找对抗样本的搜索,又保持了模型对合法输入的准确性,并且适用于多种类型的攻击。
Mar, 2024
本文提出了一种基于数据推动的黑客攻击方法 —— 基于分类模型的欺骗方法,并通过 Google Cloud Prediction 平台进行了实验验证,发现分类器天生易受攻击,并且可以轻松地进行逃避攻击,这为构建安全的机器学习框架提供了启示。
Mar, 2017
本文提出了一种训练方法来防止黑盒学习系统受到对抗性示例的攻击,该方法通过在输出类集中增加一个 NULL 标签并训练分类器将对抗性示例分类为 NULL 来阻止其可转让性。实验表明该方法能够有效抵御对抗性示例的攻击,同时在干净数据上保持准确度。
本文提出了一种基于神经过程的黑盒对抗攻击方法(NP-Attack),利用神经过程对图像结构信息进行建模,以提高查询效率,实验结果表明,NP-Attack 能显著减少黑盒情况下的查询次数。
Sep, 2020
本文旨在评估最先进的人脸识别模型在基于决策的黑盒攻击环境下的鲁棒性能,并提出一种新的进化攻击算法以减少搜索空间维度,实验结果表明该方法能够在较少的查询次数内诱导输入的最小扰动,并成功地用于攻击一个真实的人脸识别系统。
Apr, 2019