Feb, 2024

用 LLM 玩猜谜游戏:通过隐含暗示的间接越狱攻击

TL;DR通过提供一些关于原始恶意查询的提示,间接绕过 LLM 的防御策略并获得恶意响应的间接越狱攻击方法 Puzzler,通过采用防御姿态通过 LLMs 收集原始恶意查询的线索,相较于基准方案,Puzzler 在闭源 LLMs 上实现了 96.6% 的查询成功率,比基准方案高出 57.9% 至 82.7%,同时对抗最新的越狱检测方法时,Puzzler 较基准方案更具逃避检测的有效性。