Oct, 2023

二十次查询中破解黑盒大型语言模型

TL;DR大型语言模型对人类价值观的符合日益受到关注。我们提出了 Prompt Automatic Iterative Refinement (PAIR) 算法,用于生成黑盒访问的语义越狱,以理解固有弱点并防止未来滥用。PAIR 支持自动生成越狱攻击目标模型的黑盒查询,相对于现有算法,往往只需少于二十次查询即可成功越狱。同时,PAIR 在开源和闭源的 GPT-3.5/4、Vicuna 和 PaLM-2 等 LLM 上取得了有竞争力的越狱成功率和可传递性。