May, 2024

在连续攻击中,基于线性语言模型的高效对抗训练

TL;DR通过在 LLM 的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性,我们提出了一种快速的对抗训练算法 (C-AdvUL),通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒;我们还引入了 C-AdvIPO,这是一种对抗的 IPO 变体,不需要效用数据进行对抗性鲁棒对齐。我们的实证评估表明,这两个算法显著提高了 LLM 对离散攻击的鲁棒性,并保持了效用。这些结果表明,对连续扰动的鲁棒性可以外推到离散的威胁模型,为大规模对抗训练算法的鲁棒对齐 LLM 提供了一条路径。