从对抗样本的指纹中进行逆向工程的对抗性攻击

Jan, 2023

从对抗样本的指纹中进行逆向工程的对抗性攻击

Reverse engineering adversarial attacks with fingerprints from adversarial examples

David Aaron Nicholson, Vincent Emanuele

TL;DR通过反向工程将对抗样本归类至代表其算法和参数的类中，进而遏制不良者进行相关攻击。

Abstract

In spite of intense research efforts, deep neural networks remain vulnerable to adversarial examples: an input that forces the network to confidently produce incorrect outputs. →

adversarial examples neural networks supervised learning reverse engineering attack algorithms

发现论文，激发创造

通过神经指纹识别对抗性样本

该论文提出了一种名为神经指纹的简单而有效的方法，通过验证模型行为是否与一组秘密指纹一致的方法检测对抗性例子，具有检测速度快、攻击者极难逆向工程以及不需要假定对手知识等优势。该方法在各种威胁模型下均表现优异，成功检测出了具有最强攻击性的对抗样本，同时还能很好地适应各种超参数和指纹选择。

Mar, 2018

通过可转移的对抗样本进行深度神经网络指纹识别

我们提出了一种基于指纹的深度神经网络分类器方法，用于检测机器学习服务中的模型盗窃攻击，该方法提取一组从源模型中提供的输入，只有代理模型能够在这些输入上与源模型一致地进行分类。

Dec, 2019

人脸识别领域中卷积神经网络的对抗性攻击

本文以 Fast Gradient Sign Method 为基础，对面部图像数据集进行扰动，测试不同黑盒攻击算法的鲁棒性，并重点研究修改单个最佳像素或所有像素的攻击方法。研究结果表明，所有像素攻击方法能使分类器置信度平均下降至 84％，且 81.6％的误分类率，但这些图像始终可以被人类识别。该研究可为防御性对抗攻击、自适应噪声降低技术等方面的 DNNs 训练和研究提供宝贵的参考。

Jan, 2020

面向神经网络的不可察觉且强韧对抗样本攻击

该研究提出了一种新的对抗样本攻击方法，考虑到人类感知系统并最大化制作的对抗样本的噪声容忍度，实验结果证明了该技术的有效性。

Jan, 2018

对抗攻击的可逆性

本论文探究了对抗攻击的可预测性和可逆性，提出了使用分类结果集来逆转分类器中对抗攻击效果的方法，并分析了最新对抗攻击方法对此的影响。

Jun, 2022

关于深度生物特征表示的对抗反演

本研究针对深度神经网络嵌入式特征表示的反演问题进行了研究，发现攻击者可以通过利用现成的深度神经网络模型和公共数据集，仅通过获取到的特征表示和攻击者的先验知识，模拟原始模型的行为，并构建成功鉴别的生物特征重建模型。

Apr, 2023

通过通用对抗扰动对深度神经网络进行全局指纹识别

本文提出了一种新颖且实用的机制，通过模型提取攻击来验证是否从受害者模型中盗取了嫌疑模型，并针对深度神经网络模型提出了 UAP 指纹识别方法，训练了一个通过对比学习的编码器，可以在仅检测 20 个指纹的情况下以置信度 > 99.99 检测出模型 IP 侵犯，并且在不同的模型架构下具有良好的普适性，在盗版模型上具有较强的鲁棒性。

Feb, 2022

难以感知对抗图像扰动的反向工程

该研究旨在研究如何从对手的图像中逆向工程出对手干扰，并提出了一个新的逆向工程欺骗（RED）方法，其中结合了 RED 原则和图像去噪方法，称为 CDD-RED，以增加其泛化能力，对多种攻击方法均具有效性。

Mar, 2022

深度网络的简单黑盒对抗扰动

研究表明，即使没有内部知识，对深度卷积神经网络进行黑盒攻击并制造对抗性样本是可行的，这暴露了深度神经网络的弱点，为设计安全的网络提供了检验。

Dec, 2016

攻击对抗性攻击作为一种防御

通过对敌对学习及攻击的深入探究，我们发现在敌对性训练的模型中，用微小的随机噪声扰动部分攻击样本能够破坏其误导性预测，为此我们提出了一种有效的防御方法，是通过制造更加有效的防御扰动方法，利用敌对训练降低了地面真实的局部 Lipschitzness，同时攻击所有类别，将误导的预测转换为正确的预测，这种方法在经验实验证明有效。

Jun, 2021