T3: 基于树-自编码器的有针对性攻击文本生成的对抗性约束
本文探讨了深度学习文本理解中的安全漏洞,提出一种通用的生成对抗性文本的攻击框架——TextBugger,其攻击成功率高、难以检测、效率高,可有效用于情感分析等领域。同时,文章提出了一些有效措施以缓解这种攻击,并探讨了未来的发展方向。
Dec, 2018
本文提出一种名为CAT-Gen的NLP模型,通过可控属性控制生成对抗文本,并将生成的对抗例子用于提高模型的鲁棒性。实验表明,与已有的对抗文本生成方法相比,CAT-Gen能够生成更多样化、更流畅的对抗文本,并且生成的攻击能够更好地抵御模型重新训练和不同的模型结构。
Oct, 2020
本研究介绍了一种称为A2T的简单和改进的馅饼对抗训练过程,用于NLP模型的训练,可以使用更便宜的对手训练出具有鲁棒性的NLP模型,提高NLP模型的标准准确性、跨领域泛化性和可解释性。
Sep, 2021
本研究探讨了在维持语义和语法约束的前提下进行对抗样本攻击的可行性,通过crowdsourcing实验发现人类可以通过语义保持的词汇替换生成大量的对抗样本,这些人类生成的对抗样本虽然比最好的算法更加高效,但在自然性、情感及语法方面的表现并不高于最佳算法。
Sep, 2021
本文提出了两种新的对抗训练方法:一种是在表示空间中缩小原始样本和其对抗样本的距离,同时扩大其与不同标记样本的距离;另一种是将模型迫使在对抗性表示下重构原始样本,实验证明这两种方法在各种文本分类数据集上优于强基线。分析实验证明,我们的方法可以有效提高模型的抗打击能力,同时不显著影响输入句子的语义表示。
Sep, 2021
本文针对预训练Seq2Seq模型的鲁棒性问题,提出了一种新的针对Seq2Seq模型提高准确性和信息性的敌对增强框架——AdvSeq,通过隐式敌对样本和交换敌对样本来提高Seq2Seq模型的鲁棒性,实验结果表明AdvSeq显著提高了Seq2Seq生成的可信度和信息性。
Oct, 2022
本文通过分析n-gram频率解释文本攻击的有效性,提出仅依赖于此信息的模型无偏和梯度自由的对抗样本生成方法,进一步将其整合入凸包框架中以提高模型的鲁棒性。
Feb, 2023
通过引入黑盒对抗性评估框架AdvEval,利用强大的语言模型作为数据生成器和金标评估器,自动优化对抗数据并产生强烈的人工评估与受害评估之间的不一致性,实现了对自然语言生成系统进行鲁棒性评估的研究。在12个受害评估器和11个自然语言生成数据集上的实验证明了AdvEval的有效性。
May, 2024