BriefGPT.xyz
Ask
alpha
关键词
fine-tuning attacks
搜索结果 - 3
安全对齐不应仅限于几个标记
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLM
→
PDF
a month ago
免疫有害微调攻击
通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架,并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫,我们综合了不同的研究方向,以预防有害微调攻击。
PDF
4 months ago
使用机密秘钥训练 DNN 模型进行模型保护
本文提出了一种使用分块像素置换和秘密密钥作为预处理技术来保护模型的方法,实验结果表明,当密钥正确时,保护模型的性能接近于非受保护模型,而当给出错误的密钥时,准确度会严重下降,但所提出的模型保护在不仅抵御暴力攻击和微调攻击方面具有鲁棒性,同时
→
PDF
4 years ago
Prev
Next