TextFooler 黑盒对 01 损失符号激活神经网络集成攻击的准确性

Feb, 2024

TextFooler 黑盒对 01 损失符号激活神经网络集成攻击的准确性

Accuracy of TextFooler black box adversarial attacks on 01 loss sign activation neural network ensemble

Yunzhe Xue, Usman Roshan

TL;DR01 损失符号激活神经网络对文本对抗攻击具有很高的防御能力，尤其对于 TextFooler 攻击表现出较强的抗性，为创建针对文本对抗攻击的防护模型提供了进一步的开发思路。

Abstract

Recent work has shown the defense of 01 loss sign activation neural networks against image classification adversarial attacks. A public challenge to attack the models on CIFAR10 dataset remains undefeated. We ask the following question in this study: are →

01 loss sign activation neural networks text adversarial attacks textfooler adversarial accuracy foolproof models

发现论文，激发创造

深度文本分类存在欺诈性

本文介绍了一种有效的方法来生成文本对抗样本，证明了基于深度神经网络的文本分类器同样容易受到对抗样本的攻击。通过计算代价梯度或者生成一系列遮盖测试样本，可以识别用于分类的文本信息，基于这些信息，设计了三种扰动策略（插入、修改、删除）来生成对抗样本。实验表明，基于我们方法生成的对抗样本可以成功欺骗基于字符和词语所的 DNN 文本分类器，并且可以扰动到任意的分类类别而不影响其实用性，同时所引入的扰动难以被发现。

Apr, 2017

利用对抗交通标志欺骗真实汽车

该研究主要关注基于神经网络算法的分类器受到对抗性图像攻击的问题，研究了在实际生产环境下分类器遭到对抗性攻击的可能性，并提供了一个验证生产等级交通标志的对抗性攻击的流程。

Jun, 2019

末隐藏层激活的非合理有效性对于对抗性稳健性的影响

研究了在输出层使用高温度值的激活函数对于防御基于梯度的对抗攻击的效果，并在 MNIST 数据集上实验验证了其方式可以显著提高对抗攻击的鲁棒性。

Feb, 2022

使用 DeepFool 算法定制深度神经网络的针对性类别操控的对抗攻击

通过提出 “Targeted DeepFool” 算法，该研究通过在深度神经网络上训练特定的攻击样本来应对对抗攻击，以提高图像质量的完整性和准确性。

Oct, 2023

黑盒攻击中，符号位没有二进制位拆分

本研究提出了一种黑盒敌对攻击算法，通过基于符号而非基于大小的梯度估计方法，将黑盒优化从连续转移为二进制黑盒优化，从而达到了最新的模型逃避率和高效查询率，在 MNIST、CIFAR10 和 IMAGENET 数据集方面比现有算法更加准确和快速。

Feb, 2019

深度神经网络在交通标志识别中的物理对抗攻击：可行性研究

本文研究通过不同攻击方法，包括黑盒攻击，来制造可以用于在不同环境中欺骗系统的扰动，并展示可靠的物理对抗攻击可以使用不同的方法进行执行，同时也可以降低扰动的可察觉程度。该发现强调了即使在黑盒情况下，需要通过可行的方法保护 DNN 的需求，同时也为使用对抗攻击增强原始训练数据的方法提供了基础。

Feb, 2023

我看到了死人：图像文本模型的灰盒对抗攻击

本文提出了一种针对图像到文本模型的灰盒对抗攻击方法，并通过实验验证了其有效性。

Jun, 2023

文本分类中的抗解释攻击

本论文研究表明，文本分类器中存在易受干扰的解释方法，因此需要在应用于实际场景时伴随着文本分类器进行忠实和稳健的解释方法，以防止解释被局部且不可察觉的扰动所改变，TEF 是一种新颖的解释攻击算法，可以通过改变文本输入样本来显著改变常用解释方法的结果，但保持分类器的预测不变。我们对 5 个序列分类数据集进行了评估，考虑了三种 DNN 架构和每个数据集的三种变换器架构，发现所有模型和解释方法都容易受到 TEF 扰动的影响，这表明文本分类器中的解释非常脆弱。

Jun, 2022

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020

通用后门缓解和测试时间检测的改进激活剪裁

深度神经网络容易受到后门攻击，通过限制内部激活层的界限，可以有效减轻此类攻击及提高分类性能，在测试时还可以检测和校正激活界限网络与原网络之间的输出差异。

Aug, 2023