本文提出一种视觉分析方法,通过比较和分析对抗和正常示例的数据路径,解释为什么对抗性示例被错误分类。使用神经网络构建和训练解决其子集选择问题,采用多层可视化来帮助研究数据路径的。
Jan, 2020
通过分析经过训练的卷积神经网络(CNN),我们提出了一种算法来提取各个像素的扩散路径,以确定与目标类别相关联的输入图像中像素的位置,并且这种基于路径的表示在不同类别之间具有明显的区别。
Feb, 2024
本文提出了一种基于实践观察的新的防御方法,旨在强化深度神经网络的结构,提高其预测稳定性,从而更难受到针对性攻击,并在多种攻击实验中证明了该方法的有效性,相比其他防御方法具有更好的表现,而且在训练过程中的开销几乎可以忽略不计。
Jul, 2017
针对深度神经网络易受对抗性攻击的问题,本文提出了一种基于特征重构的防御方法,具体来说,通过将每个类别的特征强制限制在一个凸多面体内,使得网络学习到的决策区域更加独特和远离各个类别的边界,提高了网络的鲁棒性,同时在干净图像的分类性能上不会退化。
Apr, 2019
本文提出了一种基于路径增强的方法 (PAM) 用于生成对抗样本,通过构建候选增强路径池和利用贪心搜索选择合适的增强路径,同时通过一个语义预测器 (SP) 来避免语义不一致的情况,实验结果表明,与历史方法相比,该方法可以提高超过 4.8% 的攻击成功率。
Mar, 2023
本文提出了一种名为 “deep defense” 的训练方法来解决深度神经网络易受到对抗样本攻击的问题,通过将对抗扰动的正则化器与分类目标相结合,得到的模型能够直接且准确地学习抵御潜在的攻击,实验证明该方法在不同数据集上对比对抗 / Parseval 正则化方法有更好的效果。
Feb, 2018
本文通过研究表明,图像分类网络对于对抗性攻击的脆弱性与其性能之间是一种互相联系的关系,因为网络中最容易受攻击的输入图像方向也是它们用于实现其分类性能的方向。此外,这种关系对于构建既精确又具有抵抗对抗攻击能力的神经网络具有深远的影响。
Jul, 2018
本文提出了一种新颖且实用的机制,通过模型提取攻击来验证是否从受害者模型中盗取了嫌疑模型,并针对深度神经网络模型提出了 UAP 指纹识别方法,训练了一个通过对比学习的编码器,可以在仅检测 20 个指纹的情况下以置信度 > 99.99 检测出模型 IP 侵犯,并且在不同的模型架构下具有良好的普适性,在盗版模型上具有较强的鲁棒性。
Feb, 2022
通过研究和比较多种神经网络,本文发现随着图片识别准确度的提高,对抗性攻击虽然越来越容易使模型改变分类决策,但同时攻击的特征也越来越远离与人类视觉识别相关的特征,即使人工以同样方式造成的影响。而通过神经协调器网络的训练,可以使神经网络更加接近人类视觉识别应有模式,从而提高对抗性攻击下的鲁棒性。
Jun, 2023
针对深度学习图像分类模型易受恶意注入噪声的对抗攻击,本文基于深度图像先验提出了一种新颖有效的重建防御框架,并且分析和明确地将模型决策过程纳入了防御范畴,通过倒推清晰的 “干净样本”,最终构造出一幅可以被正确识别的图像,实验表明,在白盒、防御感知攻击下,该方法表现出优异的防御效果且重建图像的视觉质量较高。
Jul, 2021