Feb, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

TL;DR通过识别安全微调中的偏差漏洞并设计一种称为 DRA(伪装和重构攻击)的黑盒越狱方法,我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果,并展示了最先进的越狱成功率和攻击效率,特别是在 LLM 聊天机器人 GPT-4 上,DRA 拥有 90%的攻击成功率。