灰盒对抗训练
本文研究了对抗训练在提高图像分类器对白盒攻击的鲁棒性中的有效性,以及在黑盒攻击下的细微差别,并定义了鲁棒性增益的度量指标来衡量其效果。研究表明,尽管对抗训练是提高白盒场景下的鲁棒性的有效方法,但对于更现实的基于决策的黑盒攻击,则可能无法提供如此良好的鲁棒性增益。此外,即使是最小的扰动白盒攻击也可以比常规攻击更快地针对对抗训练过的神经网络收敛。
Jul, 2021
该研究论文探讨了对抗性样本及训练,以及如何生成更强的对抗性样本以提高鲁棒性,介绍了集成对抗性训练技术,并表明在 ImageNet 数据集上应用该技术可以显著提高模型的鲁棒性。
May, 2017
在网络安全领域中,人工智能的快速发展引起了重大安全关注,深度学习模型在对抗性攻击中的脆弱性是主要问题之一,该研究的关键贡献是在网络攻击检测系统中经验性地测试黑盒对抗转移现象,并验证了任何深度学习模型都极易受到对抗攻击的影响,即使攻击者无法访问目标模型的内部细节,白盒对抗攻击相比黑盒对抗攻击具有更严重的影响。因此,有必要研究和探索对抗性防御技术以增强深度学习模型对对抗攻击的鲁棒性。
Apr, 2024
将对抗训练应用于 ImageNet,并提出了如何将对抗训练成功扩展到大型模型和数据集的建议,发现对抗训练能增加对单步攻击方法的鲁棒性,单步攻击方法比多步攻击方法更难以传递,使其成为发动黑盒攻击的最佳选择。研究还揭示了 “标签泄漏” 效应,因为对抗样本构建过程使用真实标签,模型可以学习利用构建过程的规律,使经过对抗训练的模型在对抗示例上表现比正常示例更好。
Nov, 2016
本研究通过训练一个能够模拟白盒攻击行为的更高效神经网络,证明了白盒攻击优化过程所隐含的知识可以被提取并泛化,可在黑盒情况下攻击 Google Perspective API 并暴露其脆弱性,扰乱 API 的预测结果,而人类对黄金标签的预测准确率仍然很高。
Apr, 2019
本文提出离散对抗攻击的在线增强方法,使用基于最佳优先搜索和随机抽样的攻击策略来生成对抗性样本,结果表明使用随机抽样方法能够显著提高鲁棒性,而且比之前使用的离线增强方法速度提高了约 10 倍。
Apr, 2021
深度神经网络被广泛用于各种下游任务,尤其是自动驾驶等安全关键场景,但深度网络常常受到对抗样本的威胁。对抗攻击可以分为白盒攻击和黑盒攻击,前者攻击者知道模型的参数和梯度,后者攻击者只能获取模型的输入和输出。攻击者的目的可以分为有目标攻击和非有目标攻击,黑盒设置是我们实践中会遇到的情况。
Aug, 2023