通过多任务学习实现可扩展的对抗攻击归因

Feb, 2023

通过多任务学习实现可扩展的对抗攻击归因

Scalable Attribution of Adversarial Attacks via Multi-Task Learning

Zhongyi Guo, Keji Han, Yao Ge, Wei Ji, Yun Li

TL;DR本研究提出了一个名为 MTAA 的多任务学习框架，可以同时识别攻击算法、受害模型和超参数三个签名，并使用不确定性加权损失来调整权重，从而提高该框架对于误报的处理能力。

Abstract

deep neural networks (DNNs) can be easily fooled by adversarial attacks during inference phase when attackers add imperceptible perturbations to original examples, i.e., adversarial examples. Many works focus on

adversarial attribution problem deep neural networks adversarial attacks multi-task learning false alarms

发现论文，激发创造

使用特征归因检测对抗样本的 ML-LOO 算法

本文提出了一种基于深度神经网络特征的模型对抗性样本检测方法，并在多项实验中实现优异性能，尤其能有效检测攻击方法间的转换与混合置信水平的攻击样本。

Jun, 2019

基于感知度量的任务通用性对抗攻击

提出一种基于永续度量的方法，通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本，旨在打破相对有限的目前攻击的限制，并可将其通过多个网络扩展到多个任务。

Nov, 2018

对抗攻击归因：发现对抗机器学习攻击中的可归因信号

通过简单的监督式学习实验平台，发现在 CIFAR-10 和 MNIST 数据集中，可以区分使用不同攻击算法、模型和超参数生成的对抗攻击，并介绍了对抗攻击归因的概念。

Jan, 2021

基于神经元归因的攻击提升对抗迁移性能

文章提出了一种利用神经元归因进行特征级别攻击的方法，该方法可以更准确地计算神经元重要性，以提高对现有算法的性能。实验证明，该方法优于现有算法。

Mar, 2022

CAAD 2018: 迭代性集成对抗攻击

本文提出了一种针对图像分类器集合的迭代式对抗攻击方法，通过此方法，在 CAAD 2018 针对性对抗攻击竞赛中获得第五名，该方法提高了黑匣子对抗攻击的成功率。

Nov, 2018

A3T：对抗性增强的对抗性训练

本文介绍了一种通过强制表示不变性来提高深度神经网络对抗攻击鲁棒性的方法，并比较其与其他标准对抗训练方法的可行性。

Jan, 2018

多任务学习中的隐藏任务的对抗攻击

该研究论文调查了针对多任务分类器中隐藏任务的攻击的可行性，提出了一种新颖的敌对攻击方法，利用非目标任务的知识和多任务模型的共享主干网络迫使模型遗忘与目标任务相关的知识，实验证明了该方法在削弱隐藏任务的准确性方面的有效性，并且保留了可见任务的性能，有助于了解多任务分类器中的敌对性漏洞。

May, 2024

基于因果分析的归因检测对抗样本

使用涉及一系列方法来解释机器学习模型的决策，研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。

Mar, 2019

医学图像分类上的动态扰动自适应对抗训练

提出了一种动态扰动自适应对抗训练（DPAAT）方法，通过将对抗训练放置在动态学习环境中，生成自适应的数据级扰动，并通过损失信息收集提供动态更新的准则，从而在提高鲁棒性的同时保留高泛化能力。在皮肤科 HAM10000 数据集上进行全面测试，表明 DPAAT 不仅实现了更好的鲁棒性改善和泛化性能保留，还显著提高了各种 CNNs 的平均精度和解释能力，表现出作为通用医学影像分类中的一种潜在的强大的对抗训练方法。

Mar, 2024

深度神经网络中对抗性样本的可迁移性调查

深度神经网络的关键问题之一是对抗性攻击和转移性，考虑到安全性和未来的发展，需要加强对抗性漏洞的防御。

Oct, 2023