Feb, 2024

通过伪装和重构在少量查询中解封大型语言模型的方法

TL;DR通过识别安全微调中的偏差漏洞并设计一种称为DRA(伪装和重构攻击)的黑盒越狱方法,我们在LLMs安全方面开创了理论基础。我们评估了DRA在各种开源和闭源模型上的效果,并展示了最先进的越狱成功率和攻击效率,特别是在LLM聊天机器人GPT-4上,DRA拥有90%的攻击成功率。