- 在防御系统中的提示注入攻击
通过三层防御机制,本研究调查了对大型语言模型的黑盒攻击方法,分析了这些攻击所带来的挑战和重要性,评估了现有攻击和防御方法的有效性和适用性,并特别关注了黑盒攻击的检测算法,用于识别语言模型中的危险漏洞和获取敏感信息,提出了一种对大型语言模型进 - 针对易样本的扰动改善目标对抗可迁移性
在黑盒攻击中,敌对扰动的可迁移性为攻击提供了一种有效的捷径。本文实验和理论上证明相同数据集训练的神经网络,在每个类别的高样本密度区域(High-Sample-Density-Regions,HSDR)具有更一致的性能。在目标场景中,朝目标类 - 探索基于决策的黑盒攻击在语义分割上的应用
通过对语义分割的案例研究,本文首次探索了对语义分割的黑盒决策攻击,并提出了一种名为离散线性攻击(DLA)的决策攻击方法,通过随机搜索和代理指数实现了高效攻击效果,评估了 5 个模型在 8 种攻击下的对抗鲁棒性。DLA 在 Cityscape - AAAI面向可迁移的对抗攻击与集中扰动
在频率域中进行细粒度扰动优化的可传递对抗攻击方法能够增强攻击传递性,有效绕过各种防御措施。
- 鹦鹉训练的对抗样本:推动黑盒音频攻击对话者识别模型的实践性
通过最小化黑箱攻击者对目标说话者识别模型的了解,我们提出了一种新机制,称为鹦鹉训练,通过生成听起来像目标说话者的合成语音样本来针对目标模型生成对抗样本,并在联合可迁移性和感知质量框架下研究不同的方法来生成具有高可迁移性和良好人类知觉质量的对 - 深度神经网络中对抗性样本的可迁移性调查
深度神经网络的关键问题之一是对抗性攻击和转移性,考虑到安全性和未来的发展,需要加强对抗性漏洞的防御。
- 黑匣子攻击评估中的陷阱
通过对威胁模型建立一个新的分类系统,本研究揭示了各种黑盒攻击的未被充分探索的威胁空间,强调了对攻击成功率进行更真实评估的重要性。
- 利用条件扩散模型提升对深度神经网络的黑盒攻击能力
在本文中,我们提出了一种新的黑盒攻击策略,条件扩散模型攻击 (CDMA),用于在受到查询限制的情况下提高生成对抗性样本的查询效率。CDMA 通过直接条件变换生成合格的对抗性样本,可以显著减少所需查询的数量。CDMA 通过采用条件去噪扩散概率 - 理解随机特征防御对基于查询的对抗攻击的鲁棒性
通过在中间层的模型中添加随机噪声,我们提出了一种简单轻量级的防御方法,可以有效增强模型对黑盒攻击的鲁棒性,并且对准确率影响较小。
- ICCV图像活动预测及其自然语言解释的黑盒攻击
解释性人工智能 (XAI) 方法旨在描述深度神经网络的决策过程。本文首次评估基于自我合理化的图像识别模型生成的自然语言解释在黑盒攻击下的鲁棒性,我们通过对预测结果和相应解释之间的关联进行空间上的无限制、变异性的干扰来误导模型生成不忠实的解释 - 计算机视觉中对抗攻击综述
深度神经网络被广泛用于各种下游任务,尤其是自动驾驶等安全关键场景,但深度网络常常受到对抗样本的威胁。对抗攻击可以分为白盒攻击和黑盒攻击,前者攻击者知道模型的参数和梯度,后者攻击者只能获取模型的输入和输出。攻击者的目的可以分为有目标攻击和非有 - ICCV一种用于提高对抗传递性的自适应模型集成对抗攻击方法
通过自适应地控制每个模型输出的融合,监测其对于攻击目标的贡献差异比率,本文提出了一种自适应集成攻击(AdaEA)方法,并引入一个降低差异的滤波器以进一步同步更新方向,从而在各种数据集上取得了显著改进,同时能够提升已有的基于迁移的攻击方法,进 - GNP 攻击:通过梯度范数惩罚产生可迁移的对抗样本
通过梯度范数惩罚的新方法大大提高了对抗样本的可传递性,使其能够在各种目标模型上进行黑盒攻击,对源模型的体系结构和特征表示的拟合度较低,同时也能与其他基于梯度的方法进行整合以实现更强的基于传递的攻击。
- 生成可传递对抗样本的常识学习
本文研究黑盒攻击的一种重要类型 —— 基于转移的对抗攻击,并提出了一种通用知识学习框架,通过构建多教师框架来减少模型特定特征,获得更好的输出分布,加强对抗转移性能,同时通过对学生和教师模型之间的梯度施加约束来进一步缓解输出不一致问题和增强对 - IMAP: 内在动机驱动的对抗策略
提出了一种名为 Intrinsically Motivated Adversarial Policy(简称 IMAP) 的策略,用于在无需了解受害者策略的情况下,有效地进行黑盒攻击,IMAP 利用基于状态覆盖、策略覆盖、风险和策略差异的四个 - 欺骗物理世界中的热红外探测器
本研究提出了一种基于对抗性红外块的物理攻击方法,该方法可以从不同的角度对热成像系统进行黑盒攻击,成功率高达 80%以上,并以衣服内部的方式增强其潜行性。同时,本研究对先进探测器进行了测试,并证明了该方法的鲁棒性和实用性。
- CVPR基于强化学习的黑盒模型逆向攻击
本研究提出了一种基于强化学习的黑盒模型反演攻击方法,利用生成对抗网络(GANs)和 Markov 决策过程来搜索潜在空间以构建训练机器学习模型所用的隐私数据,并且在各种数据集和模型上取得了最先进的攻击性能。
- 可解释的频谱转换攻击对说话人识别的影响
通过将输入语音进行 MDCT 处理,并轻微修改不同频带的能量,该文提出了一个名为 STA-MDCT 的通用框架,该框架不仅能够在黑盒受害者模型中提高对抗声音的可转移性,而且能够实现梯度攻击,并使用模型集成来进一步提高攻击效果并通过类激活映射 - T-SEA:基于迁移学习的自组攻击在物体检测上的应用
本研究针对单模型迁移黑盒对象检测攻击问题,提出了一种增强型攻击框架以及自举式方法,提高了攻击的传递性和白盒效果。
- ICML针对苹果 NeuralHash 近似线性性的攻击与防御
该研究发现了 Apple NeuralHash 算法近似线性,并提出了黑盒攻击和加密标准的解决方案。