May, 2024

大型语言模型哨兵:通过 LLM 代理推进对抗鲁棒性

TL;DR我们引入了一种名为 LLAMOS 的新型防御技术,通过净化输入到目标大型语言模型之前的对抗文本示例,以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分:a) 代理指示,可以模拟新的代理进行对抗防御,通过最小限度地更改字符来保持句子的原始含义,并防御攻击;b) 防御指导,提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验,我们的方法可以有效抵御对抗性攻击,从而提高对抗鲁棒性。