BriefGPT.xyz
Ask
alpha
关键词
alignment-broken model
搜索结果 - 1
疫苗:针对大型语言模型的扰动感知对齐
新型的定型服务范式引入了大型语言模型(LLMs)的新攻击面:用户上传的少量有害数据可以轻易地欺骗定型,从而产生对齐破坏的模型。我们进行了实证分析,揭示了一种可能引起对齐破坏效应的有害嵌入漂移现象。在我们的研究发现的启示下,我们提出了一种名为
→
PDF
5 months ago
Prev
Next