BriefGPT.xyz
Ask
alpha
关键词
continuous embedding space
搜索结果 - 1
在连续攻击中,基于线性语言模型的高效对抗训练
通过在 LLM 的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性,我们提出了一种快速的对抗训练算法 (C-AdvUL),通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒;我们还引入了 C-AdvIPO,这是一种对抗的 IPO 变体
→
PDF
2 months ago
Prev
Next