生成自然语言攻击的上下文感知方法
该研究提出了一种决策式的攻击策略,利用基于人口统计的优化算法,通过仅观察目标模型预测的前一标签,制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比,在高度限制的情况下,成功率更高,被替换单词比例更低。
Dec, 2020
我们提出了一种上下文感知对抗攻击方法,通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本,实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。
Sep, 2023
本文提出了一种基于上下文的 CLARE 模型,通过掩码插值过程生成流畅和语法正确的对抗样例,旨在发现自然语言处理模型的脆弱性,并通过三个上下文化扰动方法 —— 替换、插入、合并,产生不同长度的文本以提高攻击效率,并通过实验和人类评估证明了相对于基线模型,CLARE 模型在攻击成功率、文本相似性、流畅性和语法正确性方面表现更好。
Sep, 2020
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
提出了一种有效的 SemAttack 框架,在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本,可针对包括大规模 LM 和防御策略在内的对抗方法,适用于不同语言的对抗生成,而人评结果表明生成出的对抗文本自然,几乎不影响人类的表现。
May, 2022
本研究提出了一种基于 BERT 掩码语言模型的背后攻击方法(BAE),用于生成自然、语义和语法准确的对抗性示例,比目前基于规则的同义词替换策略生成的对抗性示例更具攻击性。
Apr, 2020
该研究提出了一种查询效率高的攻击策略来生成文本分类和蕴含任务中的可信对抗性样例,并通过使用注意力机制和局部敏感哈希来减少查询次数。对三个不同的搜索空间使用四种基线进行比较,平均来说我们在所有数据集和目标模型中将查询次数降低了 75%。在受限查询设置中,与以前的攻击相比,我们的攻击成功率更高。
Sep, 2021
提出了一种名为 SSCAE 的自然语言生成器模型,它是一种实用且高效的对抗性攻击模型,能够生成具有语义、句法和上下文感知的自然语言对抗性示例,通过比较实验和参数优化敏感性分析验证了该模型的有效性和优越性。
Mar, 2024