保留标签的短语级文本对抗攻击

ACLMay, 2022

Phrase-level Textual Adversarial Attack with Label Preservation

Yibin Lei, Yu Cao, Dianqi Li, Tianyi Zhou, Meng Fang...

TL;DR本论文提出了一个名为 PLAT 的短语级文本对抗攻击方法，通过短语级扰动来生成对抗性样本，并结合上下文化生成方式来保持文本流畅性和句法通顺性。同时，作者还开发了一个基于类别似然的标签保持过滤器，来排除潜在导致文本分类错误的扰动。实验证明，PLAT 不仅有着比强基线更优越的攻击效果，同时还具有更好的标签一致性。

Abstract

Generating high-quality textual adversarial examples is critical for investigating the pitfalls of natural language processing (NLP) models and further promoting their robustness. Existing attacks are usually realized through word-level or sentence-level perturbations, which either limit the perturbation space or sacrifice fluency and textual quality, both a

textual adversarial attack phrase-level perturbations contextualized generation label-preservation filter nlp models

发现论文，激发创造

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

用最小扰动生成文本对抗样本

本文提出了一种新的对抗攻击策略，旨在找到与原始文本相似度极高的对抗文本，同时引入最小扰动；实验结果表明，与现有攻击方法相比，我们的方法在四个基准数据集上的成功率更高，扰动率更低。

Nov, 2022

MPAT: 构建抵抗文本对抗攻击的鲁棒深度神经网络

本文提出了一种基于恶意扰动的恶意对抗训练方法 (MPAT)，用于构建对文本对抗攻击具有鲁棒性的深度神经网络。该方法通过生成恶意样本来替代原始输入进行模型训练，并采用新的训练目标函数以实现在不降低原始任务性能的情况下达到防御目标。实验结果表明，相比于先前的防御方法，我们的方法在对抗恶意攻击时更加有效，同时保持或进一步提高原始任务的性能。

Feb, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

面向自然和现实的对抗表格扰动，提升文本到 SQL 模型的鲁棒性

本文针对自然语言问题配对 SQL 语句生成中表的变异性，提出了对抗表扰动并创建了 ADVETA 基准来度量 Text-to-SQL 模型的鲁棒性，同时提出了系统性的对抗训练来提高模型的鲁棒性并更好地上下文感知表格数据。

Dec, 2022

文本对抗攻击的上下文扰动

本文提出了一种基于上下文的 CLARE 模型，通过掩码插值过程生成流畅和语法正确的对抗样例，旨在发现自然语言处理模型的脆弱性，并通过三个上下文化扰动方法 —— 替换、插入、合并，产生不同长度的文本以提高攻击效率，并通过实验和人类评估证明了相对于基线模型，CLARE 模型在攻击成功率、文本相似性、流畅性和语法正确性方面表现更好。

Sep, 2020

在硬标签黑盒设置中生成自然语言攻击

该研究提出了一种决策式的攻击策略，利用基于人口统计的优化算法，通过仅观察目标模型预测的前一标签，制作出可信且语义相似的对抗性例子。与先前文献中提出的攻击相比，在高度限制的情况下，成功率更高，被替换单词比例更低。

Dec, 2020

上下文感知对命名实体识别的对抗攻击

我们提出了一种上下文感知对抗攻击方法，通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本，实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。

Sep, 2023

基于组合优化的词级文本对抗攻击

本文提出了一种新颖的攻击模型，采用语义元替换和粒子群优化算法处理词级攻击中不适当的搜索空间缩减方法和低效的优化算法，实验结果表明该模型相对于基线方法在攻击成功率方面显著提高，可生成更高质量的对抗样本并通过对抗训练提高受害模型的鲁棒性。

Oct, 2019

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过 crowdsourcing 实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021