KDDFeb, 2024

对抗文本净化:防御的大型语言模型方法

TL;DR通过利用大型语言模型(LLMs)的生成能力,我们提出了一种新颖的对抗文字净化方法,以在不需要明确对离散噪声扰动进行表征的情况下净化对抗性文本,从而实现语义相似且正确分类的净化示例恢复。在各种分类器上,我们的方法表现出卓越的性能,在攻击下平均提高了 65% 的准确率。