从对抗样本的指纹中进行逆向工程的对抗性攻击
该论文提出了一种名为神经指纹的简单而有效的方法,通过验证模型行为是否与一组秘密指纹一致的方法检测对抗性例子,具有检测速度快、攻击者极难逆向工程以及不需要假定对手知识等优势。该方法在各种威胁模型下均表现优异,成功检测出了具有最强攻击性的对抗样本,同时还能很好地适应各种超参数和指纹选择。
Mar, 2018
我们提出了一种基于指纹的深度神经网络分类器方法,用于检测机器学习服务中的模型盗窃攻击,该方法提取一组从源模型中提供的输入,只有代理模型能够在这些输入上与源模型一致地进行分类。
Dec, 2019
本文以 Fast Gradient Sign Method 为基础,对面部图像数据集进行扰动,测试不同黑盒攻击算法的鲁棒性,并重点研究修改单个最佳像素或所有像素的攻击方法。研究结果表明,所有像素攻击方法能使分类器置信度平均下降至 84%,且 81.6%的误分类率,但这些图像始终可以被人类识别。该研究可为防御性对抗攻击、自适应噪声降低技术等方面的 DNNs 训练和研究提供宝贵的参考。
Jan, 2020
本研究针对深度神经网络嵌入式特征表示的反演问题进行了研究,发现攻击者可以通过利用现成的深度神经网络模型和公共数据集,仅通过获取到的特征表示和攻击者的先验知识,模拟原始模型的行为,并构建成功鉴别的生物特征重建模型。
Apr, 2023
本文提出了一种新颖且实用的机制,通过模型提取攻击来验证是否从受害者模型中盗取了嫌疑模型,并针对深度神经网络模型提出了 UAP 指纹识别方法,训练了一个通过对比学习的编码器,可以在仅检测 20 个指纹的情况下以置信度 > 99.99 检测出模型 IP 侵犯,并且在不同的模型架构下具有良好的普适性,在盗版模型上具有较强的鲁棒性。
Feb, 2022
该研究旨在研究如何从对手的图像中逆向工程出对手干扰, 并提出了一个新的逆向工程欺骗(RED)方法,其中结合了 RED 原则和图像去噪方法,称为 CDD-RED,以增加其泛化能力,对多种攻击方法均具有效性。
Mar, 2022
通过对敌对学习及攻击的深入探究,我们发现在敌对性训练的模型中,用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测,为此我们提出了一种有效的防御方法,是通过制造更加有效的防御扰动方法,利用敌对训练降低了地面真实的局部 Lipschitzness,同时攻击所有类别,将误导的预测转换为正确的预测,这种方法在经验实验证明有效。
Jun, 2021