T3: 基于树-自编码器的有针对性攻击文本生成的对抗性约束

Dec, 2019

T3: 基于树-自编码器的有针对性攻击文本生成的对抗性约束

AdvCodec: Towards A Unified Framework for Adversarial Text Generation

Boxin Wang, Hengzhi Pei, Han Liu, Bo Li

TL;DR本文提出了一种树形自编码器和目标可控对抗攻击框架T3，可用于测试NLP模型的鲁棒性，特别是在情感分析和问题回答等领域，证明该框架生成的对抗文本能够成功地操纵NLP模型输出，并具有很高的可迁移性。

Abstract

While there has been great interest in generating imperceptible adversarial examples in continuous data domain (e.g. image and audio) to explore the model vulnerabilities, generating \emph{adversarial text} in the discrete domain is still challenging. The main contribution of this paper is to propose a general targeted attack framework AdvCodec for adversari

发现论文，激发创造

无需强化学习的对抗文本生成

本文利用自编码器生成低维度语句向量空间，再用生成对抗网络利用这个空间生成真实文本，与竞争基线相比，经人工审核和BLEU分数表明模型可以生成逼真的文本。

Oct, 2018

TextBugger：针对现实应用生成对抗性文本

本文探讨了深度学习文本理解中的安全漏洞，提出一种通用的生成对抗性文本的攻击框架——TextBugger，其攻击成功率高、难以检测、效率高，可有效用于情感分析等领域。同时，文章提出了一些有效措施以缓解这种攻击，并探讨了未来的发展方向。

Dec, 2018

CAT-Gen：通过可控对抗文本生成提升NLP模型的鲁棒性

本文提出一种名为CAT-Gen的NLP模型，通过可控属性控制生成对抗文本，并将生成的对抗例子用于提高模型的鲁棒性。实验表明，与已有的对抗文本生成方法相比，CAT-Gen能够生成更多样化、更流畅的对抗文本，并且生成的攻击能够更好地抵御模型重新训练和不同的模型结构。

Oct, 2020

提高NLP模型对抗训练的技术

本研究介绍了一种称为A2T的简单和改进的馅饼对抗训练过程，用于NLP模型的训练，可以使用更便宜的对手训练出具有鲁棒性的NLP模型，提高NLP模型的标准准确性、跨领域泛化性和可解释性。

Sep, 2021

人类和机器生成的文本分类词级对抗样本对比

本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性，通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本，这些人类生成的对抗样本虽然比最好的算法更加高效，但在自然性、情感及语法方面的表现并不高于最佳算法。

Sep, 2021

通过对比学习和自编码器来改善基于梯度的文本分类对抗训练

本文提出了两种新的对抗训练方法：一种是在表示空间中缩小原始样本和其对抗样本的距离，同时扩大其与不同标记样本的距离；另一种是将模型迫使在对抗性表示下重构原始样本，实验证明这两种方法在各种文本分类数据集上优于强基线。分析实验证明，我们的方法可以有效提高模型的抗打击能力，同时不显著影响输入句子的语义表示。

Sep, 2021

精准至点：针对忠实和丰富的文本生成的敌对性增强

本文针对预训练Seq2Seq模型的鲁棒性问题，提出了一种新的针对Seq2Seq模型提高准确性和信息性的敌对增强框架——AdvSeq，通过隐式敌对样本和交换敌对样本来提高Seq2Seq模型的鲁棒性，实验结果表明AdvSeq显著提高了Seq2Seq生成的可信度和信息性。

Oct, 2022

Less is More: 通过n-gram频率降序理解基于单词级别的文本对抗攻击

本文通过分析n-gram频率解释文本攻击的有效性，提出仅依赖于此信息的模型无偏和梯度自由的对抗样本生成方法，进一步将其整合入凸包框架中以提高模型的鲁棒性。

Feb, 2023

通过对抗训练学习全局优化的语言结构

提出了一种针对文本的对抗训练策略，通过扰动自回归模型生成的文本来生成负样本，并证明该策略可以显著提高离散能量基模型的生成质量。

Nov, 2023

揭示NLG评估器的致命弱点：由大型语言模型驱动的统一对抗框架

通过引入黑盒对抗性评估框架AdvEval，利用强大的语言模型作为数据生成器和金标评估器，自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性，实现了对自然语言生成系统进行鲁棒性评估的研究。在12个受害评估器和11个自然语言生成数据集上的实验证明了AdvEval的有效性。

May, 2024