Feb, 2023

分步损失远走高飞:用多步量化进行对抗文本攻击

TL;DR通过在 token 概率的连续空间中搜索对抗样本、在量化 - 补偿循环中进行多步量化,我们提出了一种新的基于梯度的攻击 transformer-based 语言模型的算法,实验表明该方法在各种 NLP 任务中明显优于其他方法。