黑匣子攻击评估中的陷阱
本文通过定义三种现实世界分类系统的威胁模型(查询限制,部分信息和仅标签),并开发了新的攻击方法,成功的攻击了一个 ImageNet 分类器,并成功的突破了 Google Cloud Vision API 的限制来进行有针对性的黑盒攻击。
Apr, 2018
本文介绍如何在黑箱攻击中利用参考模型的梯度来降低查询复杂度,提高黑箱攻击的效率和成功率,实验结果表明,与现有技术相比,本文提出的方法可以在查询数量上获得 2x 到 4x 的降低,并且具有更低的失败率。
Jun, 2019
对于机器学习模型而言,对抗性样本是指触发误分类的恶意输入。我们发现当进行攻击时,对抗者的知识缺乏研究和形式化,导致攻击研究领域在威胁模型和攻击方法上非常复杂且难以比较。本研究在图像分类领域提供了一个受序理论启发的理论框架来研究对抗者的知识,同时提出了一个受密码学游戏启发的对抗性样本游戏来标准化攻击。通过对最近的图像分类领域攻击进行整理和分类,我们从中总结出攻击者的知识,既验证了关于对抗者知识的现有观点,如受攻击模型信息的重要性,也得出了新的结论,例如白盒和可传递威胁模型的困难程度可能没有之前想象的那么高。
Feb, 2024
本文研究了针对机器学习分类器的黑盒攻击,其中每个向模型的查询都会给对手带来一些代价或检测风险。我们的重点是将查询次数最小化作为主要目标。具体而言,我们考虑了在最小化查询次数的同时遵守特征修改成本预算的机器学习分类器攻击问题。我们描述了一种利用贝叶斯优化来最小化查询次数的方法,并发现,在特征修改成本预算较低的情况下,与随机策略相比,查询次数可以减少到大约原来的十分之一。
Dec, 2017
本文研究了利用黑盒分类器生成对抗性样本的基于决策的规避攻击,认为以查询次数作为攻击代价的度量方法是有缺陷的,因为对流程进行审查的系统检测到的查询是对称成本的。因此需要构建更加对称的攻击来更加有效地攻击安全关键系统。
Jun, 2023
通过三层防御机制,本研究调查了对大型语言模型的黑盒攻击方法,分析了这些攻击所带来的挑战和重要性,评估了现有攻击和防御方法的有效性和适用性,并特别关注了黑盒攻击的检测算法,用于识别语言模型中的危险漏洞和获取敏感信息,提出了一种对大型语言模型进行黑盒攻击的漏洞检测方法和防御策略的开发。
Jun, 2024
提出了一种新的针对硬标签的黑盒攻击的优化方法,利用经预训练的替代模型指导优化过程,实验证明该方法在不同目标模型架构下显著提高了攻击的查询效率,攻击成功率较基准测试提高了约 5 倍,特别是在 100 和 250 个查询预算下。
Mar, 2024
本研究通过 Quantifying the Attack Effects on the Partial Retrieved List 方法,提出了第一种针对黑盒情况下图片检索的基于查询的攻击(QAIR)方法,并采用了新的基于相关性的损失设计和递归模型窃取方法,通过少量请求,成功地欺骗了 Bing 视觉搜索这样的商业系统。
Mar, 2021
本文提出了一种基于数据推动的黑客攻击方法 —— 基于分类模型的欺骗方法,并通过 Google Cloud Prediction 平台进行了实验验证,发现分类器天生易受攻击,并且可以轻松地进行逃避攻击,这为构建安全的机器学习框架提供了启示。
Mar, 2017