Jan, 2024
打开 LLMs 的潘多拉魔盒:通过表示工程越狱 LLMs
Open the Pandora's Box of LLMs: Jailbreaking LLMs through Representation Engineering
Tianlong Li, Xiaoqing Zheng, Xuanjing Huang
TL;DR利用表示工程的思想,我们提出了一种无需精心构建提示,不受模型微调影响,并可以广泛应用于任何开源 LLMs 的越狱方法,通过在多个主流 LLMs 上进行评估,实验结果证明了我们方法的显著有效性,并对此方法背后的技术进行了广泛深入的研究。