BriefGPT.xyz
Ask
alpha
关键词
shallow safety alignment
搜索结果 - 1
安全对齐不应仅限于几个标记
当前大型语言模型(LLM)存在的安全对齐问题容易受到攻击,我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在,并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLM
→
PDF
a month ago
Prev
Next