TextFooler 黑盒对 01 损失符号激活神经网络集成攻击的准确性
本文介绍了一种有效的方法来生成文本对抗样本,证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本,可以识别用于分类的文本信息,基于这些信息,设计了三种扰动策略(插入、修改、删除)来生成对抗样本。实验表明,基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器,并且可以扰动到任意的分类类别而不影响其实用性,同时所引入的扰动难以被发现。
Apr, 2017
该研究主要关注基于神经网络算法的分类器受到对抗性图像攻击的问题,研究了在实际生产环境下分类器遭到对抗性攻击的可能性,并提供了一个验证生产等级交通标志的对抗性攻击的流程。
Jun, 2019
研究了在输出层使用高温度值的激活函数对于防御基于梯度的对抗攻击的效果,并在 MNIST 数据集上实验验证了其方式可以显著提高对抗攻击的鲁棒性。
Feb, 2022
通过提出 “Targeted DeepFool” 算法,该研究通过在深度神经网络上训练特定的攻击样本来应对对抗攻击,以提高图像质量的完整性和准确性。
Oct, 2023
本研究提出了一种黑盒敌对攻击算法,通过基于符号而非基于大小的梯度估计方法,将黑盒优化从连续转移为二进制黑盒优化,从而达到了最新的模型逃避率和高效查询率,在 MNIST、CIFAR10 和 IMAGENET 数据集方面比现有算法更加准确和快速。
Feb, 2019
本文研究通过不同攻击方法,包括黑盒攻击,来制造可以用于在不同环境中欺骗系统的扰动,并展示可靠的物理对抗攻击可以使用不同的方法进行执行,同时也可以降低扰动的可察觉程度。该发现强调了即使在黑盒情况下,需要通过可行的方法保护 DNN 的需求,同时也为使用对抗攻击增强原始训练数据的方法提供了基础。
Feb, 2023
本论文研究表明,文本分类器中存在易受干扰的解释方法,因此需要在应用于实际场景时伴随着文本分类器进行忠实和稳健的解释方法,以防止解释被局部且不可察觉的扰动所改变,TEF 是一种新颖的解释攻击算法,可以通过改变文本输入样本来显著改变常用解释方法的结果,但保持分类器的预测不变。我们对 5 个序列分类数据集进行了评估,考虑了三种 DNN 架构和每个数据集的三种变换器架构,发现所有模型和解释方法都容易受到 TEF 扰动的影响,这表明文本分类器中的解释非常脆弱。
Jun, 2022
本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
深度神经网络容易受到后门攻击,通过限制内部激活层的界限,可以有效减轻此类攻击及提高分类性能,在测试时还可以检测和校正激活界限网络与原网络之间的输出差异。
Aug, 2023