BriefGPT.xyz
Ask
alpha
关键词
eos tokens
搜索结果 - 1
通过 Silent Tokens 增强对大型语言模型的越狱攻击
该研究探讨了 L 语言模型的安全威胁,引入了简单的 BOOST 攻击方法,通过在有害问题末尾添加 eos 标记,绕过 LLM 的安全对齐,从而导致成功的越狱攻击。研究发现,在 MLE 对有害问题理解上没有影响的情况下,eos 标记可以增加攻
→
PDF
a month ago
Prev
Next