Nov, 2022

基于文本多样性流形的自然语言对抗样本防御

TL;DR本文研究了利用预训练语言模型诱导的上下文嵌入空间中的对抗文本的嵌入发散现象,并提出了一种基于嵌入流形的文本防御机制,将文本嵌入映射到近似嵌入流形上进行分类,从而增强模型的鲁棒性。实验证明,该方法在不牺牲准确性的前提下,在各种攻击设置下始终显著优于以前的防御方法。