Jun, 2024

面向 LLM 的破解攻击的理解:表示空间分析

TL;DR通过研究大型语言模型中的有害和无害提示在表示空间中的行为,探讨成功越狱攻击的内在特性,并利用隐藏表示引入现有越狱攻击的目标,通过实验证实上述假设。希望该研究能为理解大型语言模型如何理解有害信息提供新的见解。