Jun, 2024
通过模糊输入对大型语言模型进行越狱
ObscurePrompt: Jailbreaking Large Language Models via Obscure Input
Yue Huang, Jingyu Tang, Dongping Chen, Bingda Tang, Yao Wan...
TL;DR通过采用 ObscurePrompt 方法,从模糊的文本入手,并利用强大的 LLM 进行迭代转换,增强攻击的稳健性,从而提高对 LLM 的破解效果,并改进先前的方法,以增强 LLM 的对齐性能。