Jan, 2024

打开 LLMs 的潘多拉魔盒:通过表示工程越狱 LLMs

TL;DR利用表示工程的思想,我们提出了一种无需精心构建提示,不受模型微调影响,并可以广泛应用于任何开源 LLMs 的越狱方法,通过在多个主流 LLMs 上进行评估,实验结果证明了我们方法的显著有效性,并对此方法背后的技术进行了广泛深入的研究。