BriefGPT.xyz
大模型
Ask
alpha
关键词
layer-specific editing
搜索结果 - 1
通过特定层编辑来防御针对大型语言模型的越狱攻击
通过 Layer-specific Editing (LED) 方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高 LL
→
PDF
a month ago
Prev
Next