BriefGPT.xyz
Ask
alpha
关键词
non-safety-aligned lms
搜索结果 - 1
打破突破:通过自我完善为 LM 防御越狱攻击重新定义
我们提出了一种自我改进的格式化方法,即使在非安全对齐的语言模型中也能实现出色的安全性,通过将我们的方法与几种防御基线进行评估,证明它是针对越狱攻击最安全的无需训练的方法。此外,我们提出了一种格式化方法,可以在更少的迭代中提高自我改进过程的效
→
PDF
4 months ago
Prev
Next