Oct, 2023

通过利用生成技术实现对开源 LLMs 的灾难性越狱

TL;DR通过改变文本生成策略,我们提出一种新的攻击方法(生成利用攻击),成功地使 11 种语言模型的对齐率从 0% 提高到超过 95%;我们还提出了一种有效的对齐方法,可在攻击下合理降低对齐失误率。这项研究强烈呼吁在发布开源大型语言模型之前进行更全面的红队测试和更好的对齐方式。