通过扩展抽象训练实现对可编程字符串转换的鲁棒性

ICMLFeb, 2020

通过扩展抽象训练实现对可编程字符串转换的鲁棒性

Robustness to Programmable String Transformations via Augmented Abstract Training

Yuhao Zhang, Aws Albarghouthi, Loris D'Antoni

TL;DR本文介绍了一种灵活的编程语言，可以帮助用户指定字符串转换，使模型具有对抗性的鲁棒性。我们的方法将搜索和抽象技术相结合，通过将一组用户定义的字符串转换分解为两个组件来达到鲁棒性。在 AG 和 SST2 数据集上的实验表明，该方法可以使模型具有能够应对用户定义的拼写错误等字符串转换的鲁棒性。

Abstract

deep neural networks for natural language processing tasks are vulnerable to adversarial input perturbations. In this paper, we present a versatile language for programmatically specifying →

deep neural networks adversarial input perturbations adversarial training string transformations robustness

发现论文，激发创造

LSTMs 在可编程转换下的认证鲁棒性

该论文提出了一种通过使用字符串转换语言来扩展鲁棒性证明的方法，成功地训练了比现有技术更鲁棒的模型，并且可以高精确度地证明模型的鲁棒性。

Feb, 2021

对抗性词语替换的可验证鲁棒性

本文利用 Interval Bound Propagation（IBP）训练了第一个能够抵御包括词语替换在内的 label-preserving 转换攻击的 NLP 模型，该模型在情感分析与自然语言推理任务上取得了 75% 的对抗准确率，远高于传统训练模型和数据增广训练模型的 8% 和 35%。

Sep, 2019

SAFER: 一种无需结构的方法，实现对抗性词汇替换的认证鲁棒性

针对自然语言处理领域中的同义词替换攻击问题，提出了一种基于随机平滑技术的认证鲁棒性方法，能证明某些输入不能通过任何同义词替换被修改，可以应用于各种预训练模型，在 IMDB 和亚马逊文本分类任务上表现优异，创造了 BERT 系统鲁棒性认证的最佳效果。

May, 2020

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023

构建强韧的神经机器翻译系统

本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性，通过使编码器和解码器在输入和其扰动版本的情况下行为相似，进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明，该方法不仅可以显著提高强 NMT 系统的翻译品质，而且可以增强 NMT 模型的鲁棒性。

May, 2018

源代码模型的语义鲁棒性

研究表明，在源代码模型中，深度神经网络容易受到对代码功能保留的参数语义程序转换序列引起的对抗性示例的影响，我们发现对抗性训练可以显著提高模型的鲁棒性。

Feb, 2020

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

提高 NLP 模型对抗训练的技术

本研究介绍了一种称为 A2T 的简单和改进的馅饼对抗训练过程，用于 NLP 模型的训练，可以使用更便宜的对手训练出具有鲁棒性的 NLP 模型，提高 NLP 模型的标准准确性、跨领域泛化性和可解释性。

Sep, 2021

对抗性训练对语言模型的稳健性和泛化能力的影响

本文比较了几种对抗训练语言模型的不同方法，包括预训练数据增强，输入空间扰动和嵌入空间扰动，发现输入空间扰动或预训练数据增强可以提高鲁棒性，而使用嵌入空间扰动可以显著提高泛化性。通过神经元的语言相关性分析表明，泛化性的提高是由于 “更加专业化” 的神经元。这是第一篇对对抗训练语言模型生成不同对抗示例方法进行深度定性分析的工作。

Nov, 2022

基于数据驱动的对抗文本扰动缓解

本文提出了一种使用 deobfuscation 和 CW2V 嵌入的强健分类管道，用于检测 Facebook 帖子是否请求参与（例如点赞）。在针对有意和无意的对抗文本扰动方面，CW2V 嵌入的强健性优于基于字符 ngram 的嵌入，其分类结果在扰动下的 AUC 从 0.70 降至 0.67，而字符 ngram 嵌入的分类结果从 0.76 降至 0.64。

Feb, 2022