Jun, 2024

通过模糊输入对大型语言模型进行越狱

TL;DR通过采用 ObscurePrompt 方法,从模糊的文本入手,并利用强大的 LLM 进行迭代转换,增强攻击的稳健性,从而提高对 LLM 的破解效果,并改进先前的方法,以增强 LLM 的对齐性能。