Jan, 2024

如何请求决定一切:针对越狱攻击的简单黑盒方法

TL;DR通过使用以 ChatGPT 为目标的简单黑盒方法,本研究有效地生成越过伦理规定的提示,突破了现有方法的复杂性和计算成本的限制,该方法通过 LLM 自身将有害的提示迭代地重写为无害表达式,该研究结果表明,创建有效的越狱提示比以前认为的更简单,并且黑盒越狱攻击构成了更严重的安全威胁。