May, 2024

LLMs 能够深入检测复杂恶意查询吗?通过混淆意图进行越狱的框架

TL;DR提出了一种名为 IntentObfuscator 的黑盒越狱攻击方法,通过模糊用户提示背后的真实意图,使 LLMs 绕过其内置的内容安全措施,有效地规避了恶意意图检测;通过在 ChatGPT-3.5 等多个模型上的测试,证明了 IntentObfuscator 方法在多种敏感内容类型上的成功率,进而对加强 LLM 内容安全框架的 “红队” 策略产生了实质性的影响。