BriefGPT.xyz
大模型
Ask
alpha
关键词
jailbreak method
搜索结果 - 1
通过伪装和重构在少量查询中解封大型语言模型的方法
通过识别安全微调中的偏差漏洞并设计一种称为 DRA(伪装和重构攻击)的黑盒越狱方法,我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果,并展示了最先进的越狱成功率和攻击效率,特别是在 LLM 聊天机器
→
PDF
4 months ago
Prev
Next