TextShield: 文本分类中超越成功检测攻击性句子
本文提出了一种新颖的文本分类防御策略 Sample Shielding。该方法在不需要重新配置分类器或外部资源的情况下,对三种流行的深度学习文本分类器进行防御攻击,并在三个数据集中测试其鲁棒性。通过样本选择和分类来实现决策,避免了现有防御策略的关键漏洞。
May, 2022
提出一种名为 SHIELD 的算法,将文本神经网络的最后一层进行修改和重新训练,形成一种加权多专家预测头的随机加权集合,从而混淆攻击者并进一步提高模型准确率。
Nov, 2020
本文研究针对自然语言处理(NLP)模型的对抗攻击算法,发现攻击算法主要破坏文本中的单词重要性分布,基于此提出一种新的防御框架 TextDefense,利用目标模型的能力来检测对抗样本,不需要先验知识,并发现影响 TextDefense 性能的主要因素是目标模型的可推广性。
Feb, 2023
提出了一种名为 AdaShield 的方法,通过在输入前添加防御提示来防御结构性越狱攻击,无需对 MLLMs 进行微调或训练额外的模块,并通过广泛实验证明了该方法可以提高 MLLMs 对结构性越狱攻击的鲁棒性。
Mar, 2024
本研究提出了一种新颖的针对文本分类模型的对抗攻击方法,即修改的基于词显著性的对抗攻击(MWSAA)。该技术利用词显著性的概念,有针对性地扰乱输入文本,旨在误导分类模型,同时保持语义连贯性。通过改进传统的对抗攻击方法,MWSAA 在逃避分类系统检测方面显著提高了效果。该方法首先通过显著性估计过程识别输入文本中的显著词,这些词对模型的决策过程影响最大。随后,这些显著词会经过经过精心设计的修改,根据语义相似度度量进行指导,以确保修改后的文本保持连贯并保留其原始含义。在各种文本分类数据集上进行的实证评估表明,所提出的方法能够生成成功欺骗最先进的分类模型的对抗性示例。与现有的对抗攻击技术进行的比较分析进一步指出了所提方法在攻击成功率和文本连贯性保持方面的优越性。
Mar, 2024
本文为对文本分类器对抗攻击的取证研究提供了第一步,通过分析对抗文本来确定其创建方法,提供了一个广泛的攻击检测和标记数据集,使用该数据集开发和基准测试攻击识别的多个分类器,并展示了三类特征对这些任务的有效性。
Jan, 2022
本研究提出了一种基于视觉显著性的方法,用于清理受对抗性攻击影响的数据。该模型利用对抗性图像的显著区域提供有针对性的对策,并在相对减少清理后图像的损失的同时,通过评估各种指标的准确性来证明它的有效性。
Mar, 2020
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
本篇研究探讨了将文本进行视觉篡改后对 NLP 系统的攻击方法,在字符级别、单词级别和句子级别的任务中,神经模型和非神经模型的性能都会降低高达 82%,并研究了三种防御方法 —— 视觉字符嵌入、对抗性训练、基于规则的恢复 —— 这些方法可显著提高模型的鲁棒性,但与攻击未发生时的性能相比仍有一定差距。
Mar, 2019