对抗性涂鸦：可解释和可人工绘制的攻击提供可描述的洞察

CVPRNov, 2023

Adversaral Doodles: Interpretable and Human-drawable Attacks Provide Describable Insights

Ryoya Nara, Yusuke Matsui

TL;DR利用黑色贝塞尔曲线，通过将其覆盖在输入图像上来欺骗目标分类器的 Adversarial Doodles 提供了对攻击和分类器输出之间关系的可描述和引人入胜的见解。

Abstract

dnn-based image classification models are susceptible to adversarial attacks. Most previous adversarial attacks do not focus on the

发现论文，激发创造

该论文提出基于解释性的对抗样本检测技术，通过对神经元的双向对应推断来对抗样本进行检测，实验表明该方法在检测 7 种不同类型的攻击时能够达到 94% 的准确率，误判率为 9.91%。

Oct, 2018

通过研究和比较多种神经网络，本文发现随着图片识别准确度的提高，对抗性攻击虽然越来越容易使模型改变分类决策，但同时攻击的特征也越来越远离与人类视觉识别相关的特征，即使人工以同样方式造成的影响。而通过神经协调器网络的训练，可以使神经网络更加接近人类视觉识别应有模式，从而提高对抗性攻击下的鲁棒性。

Jun, 2023

本研究旨在通过减少神经元的不确定性，提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性，以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性

Jan, 2019

该研究介绍了一个名为 Adversarial-Playground 的基于 Web 的可视化工具，用于教育和探索深度学习在安全应用程序中的漏洞，并演示共同对抗策略对卷积神经网络的有效性。

Aug, 2017

医学深度学习系统可以被巧妙地构造对抗性例子攻击破坏，难以在实际临床设置中应用，本文发现医学深度学习模型对于对抗攻击比对自然图像模型更脆弱，但医学对抗攻击可以通过简单的检测器容易检测出来，这些发现可作为更可解释和安全的医学深度学习系统设计的依据。

Jul, 2019

本文介绍了一种用于生成自然语言对抗性样本的几何灵感攻击方法，该攻击通过迭代逼近深度神经网络（DNNs）的决策边界生成对抗性样本，并实验证明该攻击方法可以快速欺骗自然语言模型，并表明对抗训练可以提高模型对我们的攻击方法的鲁棒性。

Oct, 2020

本文提出了一种针对图像分类器集合的迭代式对抗攻击方法，通过此方法，在 CAAD 2018 针对性对抗攻击竞赛中获得第五名，该方法提高了黑匣子对抗攻击的成功率。

Nov, 2018

该研究基于对 Deep Neural Networks（DNNs）的视觉知觉能力的探究，提出了一种新的对抗攻击方法 AdvDrop，这种新型对抗样本更难以被当前的防御系统防御。

Aug, 2021

提出一种基于永续度量的方法，通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本，旨在打破相对有限的目前攻击的限制，并可将其通过多个网络扩展到多个任务。

Nov, 2018

本文提出了一种基于实践观察的新的防御方法，旨在强化深度神经网络的结构，提高其预测稳定性，从而更难受到针对性攻击，并在多种攻击实验中证明了该方法的有效性，相比其他防御方法具有更好的表现，而且在训练过程中的开销几乎可以忽略不计。

Jul, 2017