在释义识别中使用共享单词的鲁棒性

EMNLPSep, 2019

在释义识别中使用共享单词的鲁棒性

Robustness to Modification with Shared Words in Paraphrase Identification

Zhouxing Shi, Minlie Huang

TL;DR本文研究自然语言处理模型的健壮性问题，尤其是同义词识别模型在面对修改后的场景下健壮性存在显著问题。通过引入新的共享词汇的修改方式，结合优化算法，进行了大量实验验证。最后，着重讲解了对抗训练方法对提升模型健壮性的帮助。

Abstract

Revealing the robustness issues of natural language processing models and improving their robustness is important to their performance und

robustness natural language processing paraphrase identification modification adversarial training

发现论文，激发创造

对抗性词语替换的可验证鲁棒性

本文利用 Interval Bound Propagation（IBP）训练了第一个能够抵御包括词语替换在内的 label-preserving 转换攻击的 NLP 模型，该模型在情感分析与自然语言推理任务上取得了 75% 的对抗准确率，远高于传统训练模型和数据增广训练模型的 8% 和 35%。

Sep, 2019

BERT 强健性的案例！反驳基于同义词的文本分类对抗样本

本文调查了针对 BERT 的四种基于词汇替换的攻击方法，结合人类评估和概率分析，发现 96% 至 99% 的攻击并不能维护语义，其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案，以防止许多对抗性攻击。最终，通过对词汇更换的约束条件设定更合理的阈值，作者得出结论：BERT 比攻击研究所说的要更加健壮。

Sep, 2021

测试时间调整强化语言模型

大规模语言模型在很多语言任务上取得了最先进的性能。然而，它们在针对对抗性语言示例时失败了，这些句子被精心优化以欺骗语言模型，但对人类来说具有类似的语义意义。我们的方法可以动态地适应输入句子并使用屏蔽词的预测结果，从而修复许多语言对抗攻击，而不需要任何训练。在两个流行的句子分类数据集上进行的可视化和实证结果表明，我们的方法能够修复超过 65% 的对抗性语言攻击。

Oct, 2023

扰动样本揭示语言模型共享的不变性

通过揭示语言处理模型对特定语言能力的可解释的输入扰动具有的共同不变性来比较两个自然语言处理模型，并研究模型的改变如何影响多个明确定义的语言能力，并且大型语言模型具有多种不变性可能是最近大型语言模型取得成功的关键原因之一。

Nov, 2023

使用预训练语言模型研究对噪声相关性的鲁棒性

本文通过研究发现，预先训练的语言模型可以通过从少量反例中进行泛化来提高对数据中偶然现象的鲁棒性。当这些少数情况很少时，预训练模型表现与从头开始训练的模型一样差。在极端的少数情况下，我们提出使用多任务学习（MTL）来提高泛化能力。我们在自然语言推断和释义识别上的实验表明，MTL 可显着提高在具有挑战性的情况下的性能，而不会影响分布内性能。此外，我们表明，MTL 带来的增益主要是从极少数情况的改善泛化能力中获得的。我们的结果突显了克服偶然相关性的数据多样性的重要性。

Jul, 2020

SAFER: 一种无需结构的方法，实现对抗性词汇替换的认证鲁棒性

针对自然语言处理领域中的同义词替换攻击问题，提出了一种基于随机平滑技术的认证鲁棒性方法，能证明某些输入不能通过任何同义词替换被修改，可以应用于各种预训练模型，在 IMDB 和亚马逊文本分类任务上表现优异，创造了 BERT 系统鲁棒性认证的最佳效果。

May, 2020

使用释义改进上下文化词嵌入

本文章探讨了，如何通过给上下文动态变化的词嵌入模型增加同义词的语境来提高模型的稳定性，提出了一种基于改造的方法并在各种句子分类和语言推理任务中进行了实验，结果表明该方法可以有效提高模型性能。

Sep, 2019

通过条件性 BERT 抽样改写有意义的句子及其欺骗文本分类器应用

本文提出了一个名为 ParaphraseSampler 的新样本采样技术，通过进行句子级别的改写，应用了一种新的修改标准 —— 句子级威胁模型，并在 6 个数据集上进行了实验。结果表明，许多重写的句子都被分类器误分类，并且我们的 ParaphraseSampler 比基线攻击成功率更高。

Oct, 2020

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023

GAPX：广义自回归释义标识 X

本文探讨了在自然语言处理中的重要任务 —— 释义识别，发现现有模型在推断时往往受到分布转移的影响。为了克服这种影响，我们提出使用两个分开的模型进行训练，并使用基于困惑度的指标确定在推断时应该给予负模型多少权重，实验证明这种方法取得了很好的效果。

Oct, 2022