ACLApr, 2024

通过自去噪平滑提高大型语言模型的稳健性

TL;DR大型语言模型 (LLMs) 的漏洞性导致对抗性扰动攻击,而随着模型规模的增加和有限的访问权限,提高模型的鲁棒性变得很困难。我们提出了一种称为自修复平滑的方法,通过利用 LLMs 的多任务性质,首先去噪噪声输入,然后基于这些去噪版本进行预测,以提高模型对噪声数据的鲁棒性。实验结果表明,我们的方法在防御对抗攻击方面超过了现有方法,在下游任务和用户对齐方面都具有较好的鲁棒性。