- Go AI 的对抗性鲁棒性能否得以保证?
简单的防御策略无法阻止对超级人类级别的围棋 AI 的自适应攻击。
- ICMLIBD-PSC: 基于参数缩放一致性的输入层后门检测
这篇论文提出了一种名为 IBD-PSC 的简单而有效的输入层背门检测方法,通过放大模型参数,利用参数相关的一致性现象来过滤恶意测试图像,并设计了一种自适应方法选择 BN 层进行有效检测,通过基准数据集上的大量实验证实了 IBD-PSC 方法 - 增强守护者而非宝藏:适应性对抗性检测器
针对自适应攻击提出了一种名为 RADAR-Robust Adversarial Detection via Adversarial Retraining 的方法,旨在增强对抗性检测器的鲁棒性,同时保持分类器的性能。在训练阶段,我们将优化后的 - 通过简单自适应攻击解禁领先的安全对齐 LLMs
展示了最新的安全对齐语言模型 (LLMs) 即使面对简单的适应性越狱攻击也不具有稳健性,并提出了适用于越狱攻击的对抗性提示模板、随机搜索等攻击方法,同时探索了适用于特定情境的不同模型的脆弱性以及特定 API 特征导致的脆弱性,并介绍了在木马 - 通过全卷积和可微分前端与跳跃连接对梯度攻击表现出卓越的韧性的一个奇特案例
通过使用前端增强神经模型,结合差分和完全卷积模型以及跳跃连接,该研究找到了一种对梯度攻击具有异常抵抗力的模型,并通过组合模型构成随机化集成以提高抵抗力,该方法对于展示模型的鲁棒性十分重要。
- CARE:面向安全应用的集成对抗鲁棒性评估与自适应攻击者
提出了一种名为 Cybersecurity Adversarial Robustness Evaluation(CARE)平台来全面评估集成对抗性攻击和防御的方法,旨在探讨集成防御是否能够提高模型性能和鲁棒性,对不同类型的攻击有效,并抵御不 - 对抗马尔可夫博弈:关于自适应基于决策的攻击与防御
通过理论和实证研究,我们解决自适应对手提出的挑战,并开发自适应防御策略,从而确定在部署在现实世界中的基于机器学习的系统中确保鲁棒性的有效方法。
- 不确定性量化的对抗性攻击
机器学习模型容易受到对抗性示例的欺骗,对抗攻击针对的是不确定性量化技术,攻击的目标是操纵不确定性估计,实验结果表明这种攻击比诱导错误分类的攻击更有效。
- 利用多个加密修补嵌入阻碍对抗性攻击
我们提出了一种新的基于关键词的防御方法,注重效率和鲁棒性,在大型数据集如 ImageNet 上的有效训练非常困难。该防御方法通过效率训练和可选随机化的两个重要改进来构建,以一个或多个秘密的补丁嵌入和分类器头与预训练的各向同性网络相结合,实现 - AAAI利用去噪自编码器进行对抗净化
该研究提出了一种名为 APuDAE 的深度学习框架,利用去噪自编码器(DAE)以自适应方式净化样本,并提高目标分类器网络的分类准确度并使其更加鲁棒。
- AAAIMOVE: 嵌入式外部特征的有效且无害的所有权验证
该研究提出了一种有效的且不会引入安全风险的模型所有权验证(MOVE)方法,使用元分类器来确定一种模型是否被盗,并使用渐变样式转移来嵌入外部特征,以便在白盒和黑盒设置下提供综合的模型保护。
- 因果干预提升对抗视觉鲁棒性
通过因果干预的方式,使用多个视网膜中心数据增强和线性响应空间插值,促进模型学习因果特征而提高其抗干扰能力,并以此为基础设计了一种集成了 Causal intervention by instrumental Variable (CiiV) - 基于随机噪声的防御:对抗查询黑盒攻击
本文研究一种轻量级防御方法 ——Random Noise Defense (RND) 来对抗基于查询的黑盒攻击,并在理论和实验上验证了其有效性。此外,通过将 RND 与高斯增强精调相结合(RND-GF),可以在保持良好的清洁数据准确性的情况 - 自适应奖励中毒攻击对强化学习的影响
通过对 delta_t 的无穷范数约束,对回报污染攻击进行分类,并提出一种可达到霸权策略的快速自适应攻击策略,并通过实验演示使用先进的深度 RL 技术可以找到有效的回报污染攻击。
- 关于对抗性样本防御的自适应攻击
本文探讨了 13 种已在相关会议上发表的对抗性防御方法对抗自适应攻击方法的实验结果,发现这些方法在实际运用中并不完善,因此提出了一种可行的自适应攻击方法,希望能够为研究更为健壮的防御模型提供指导。