TextAttack: 自然语言处理中对抗攻击、数据增广和对抗训练的框架

Apr, 2020

TextAttack: 自然语言处理中对抗攻击、数据增广和对抗训练的框架

TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP

John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin...

TL;DR本篇论文介绍了一种名为 TextAttack 的 Python 框架，用于在自然语言处理中进行敌对攻击、数据增强和对抗性训练，通过 TextAttack 的模块化设计，研究人员可以轻松构建来自新颖和现有组件的攻击。该框架实现了 16 种从文献中学来的敌对攻击，并支持各种模型和数据集，包括 BERT 和其他变压器，并提供使用对抗攻击的组件来提高模型的准确性和鲁棒性的数据增强和对抗训练模块。

Abstract

While there has been substantial research using adversarial attacks to analyze nlp models, each attack is implemented in its own code repository. It remains challenging to develop →

nlp adversarial attacks data augmentation adversarial training python framework

发现论文，激发创造

设计自然语言处理 Python 框架的经验总结：TextAttack

TextAttack 是一种开源的 Python 工具包，用于 NLP 中的对抗攻击、对抗训练和数据增强。它可以帮助研究人员和开发人员测试和研究 NLP 模型的弱点，并解决如何支持来自不同深度学习框架的模型和尽可能多的数据集这些常见问题。

Oct, 2020

学习攻击：朝着在现实场景中的文本对抗攻击

该研究旨在阐述在自然语言处理领域，利用强化学习的攻击模型可以从历史攻击中学习，更高效地发起攻击，并对多项任务进行对比，实验证明其在攻击性和效率方面均优于其他基线方法。

Sep, 2020

OpenAttack：一个开源的文本对抗攻击工具包

本篇论文提出了一个基于开源的文本对抗攻击工具包 OpenAttack，该工具包有其独特的优势，在支持所有攻击类型、多语言和并行处理方面表现突出。它包含 15 种典型的攻击模型，覆盖了所有攻击类型，高度包容性的模块化设计不仅支持现有攻击模型的快速利用，还能实现巨大的灵活性和可扩展性。OpenAttack 工具包广泛应用于攻击模型的比较和评估、模型的鲁棒性测试、辅助开发新的攻击模型和敌对训练等领域。

Sep, 2020

基于词重要性熵的对抗文本检测

本文研究针对自然语言处理（NLP）模型的对抗攻击算法，发现攻击算法主要破坏文本中的单词重要性分布，基于此提出一种新的防御框架 TextDefense，利用目标模型的能力来检测对抗样本，不需要先验知识，并发现影响 TextDefense 性能的主要因素是目标模型的可推广性。

Feb, 2023

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

SemAttack: 基于不同语义空间的自然文本攻击

提出了一种有效的 SemAttack 框架，在不同语义空间下构建语义干扰函数生成更接近原始输入的自然对抗文本，可针对包括大规模 LM 和防御策略在内的对抗方法，适用于不同语言的对抗生成，而人评结果表明生成出的对抗文本自然，几乎不影响人类的表现。

May, 2022

语义隐身：多种方法对 NLP 的对抗文本攻击

在本文中，通过对 BERT 模型进行 BERT-on-BERT 攻击、PWWS 攻击和 Fraud Bargain's 攻击 (FBA) 这三种不同的攻击机制的探索，利用 IMDB、AG News 和 SST2 等数据集进行全面对比分析，发现 PWWS 攻击是最强大的对手，在多个评估场景中始终优于其他方法，从而强调其在生成文本分类的对抗示例方面的功效。通过全面的实验，评估了这些攻击的性能，并发现 PWWS 攻击优于其他方法，具有更低的运行时间、更高的准确性和更好的语义相似度得分，这是这篇论文的关键见解。

Apr, 2024

多语种文本分类的生成对抗攻击

通过对多语言释义模型进行敌对目标的微调，我们提出了一种对抗性攻击算法，用于伪造多语言分类器的有效的对抗性样本，实验证明该方法在查询效率方面优于现有基准模型。

Jan, 2024

基于组合优化的词级文本对抗攻击

本文提出了一种新颖的攻击模型，采用语义元替换和粒子群优化算法处理词级攻击中不适当的搜索空间缩减方法和低效的优化算法，实验结果表明该模型相对于基线方法在攻击成功率方面显著提高，可生成更高质量的对抗样本并通过对抗训练提高受害模型的鲁棒性。

Oct, 2019

TextDecepter：针对文本分类器的硬标签黑盒攻击

本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法，其中没有模型信息被公开，攻击者只能查询模型以获得分类器的最终决策，该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。

Aug, 2020