May, 2023

欺骗 LLMs 反抗:理解、分析和预防越狱

TL;DR本研究提出了形式主义和已知(和可能的)越狱攻击分类,并在开源和商业 LLM(如 GPT 3.5,OPT,BLOOM 和 FLAN-T5-xxl)上进行了现有越狱方法及其有效性的调查;我们进一步提出了一组有限的提示守卫,并讨论了其对已知攻击类型的有效性。