Jun, 2024

理解越狱成功:大型语言模型中潜空间动力学的研究

TL;DR对话式大型语言模型的研究中发现,监狱破解技术可以绕过模型的安全保障,通过分析模型对不同类型的监狱破解输入的激活情况,发现可以从一类监狱破解中提取出能够减少其他类监狱破解效果的监狱破解向量,而这或许意味着不同类型的有效的监狱破解通过相似的内部机制来实现,通过研究有害特征抑制可能的共同机制,提供有利于开发更强大的监狱破解对策的实证证据,为深入理解语言模型中监狱破解动态打下基础。