BriefGPT.xyz
Ask
alpha
关键词
backdoor injections
搜索结果 - 1
大规模语言模型背景注入中的隐蔽而持久的不对齐
通过背门注入,在大型语言模型上进行隐秘而持续的非对准操作,可以成功通过安全评估,同时对抗重新对齐防御。
PDF
8 months ago
Prev
Next