Feb, 2024

CodeChameleon:为大型语言模型破解定制的加密框架

TL;DR通过引入个性化加密策略的新型越狱框架 CodeChameleon,本研究研究了对大型语言模型(LLMs)的安全和伦理协议进行绕过的敌对滥用,提出了基于意图安全识别和响应生成的安全机制假设。我们通过将任务转化为代码完成格式,使用户能够使用个性化加密函数对查询进行加密,以避开意图安全识别阶段。为保证响应生成功能,我们在指令中嵌入了一个解密函数,允许 LLM 成功解密和执行加密的查询。在 7 个 LLM 上进行了广泛的实验,取得了最先进的平均攻击成功率(ASR),其中在 GPT-4-1106 上达到了 86.6%的 ASR。