Oct, 2024

监狱破解解药:通过稀疏表示调整在大型语言模型中的运行时安全-实用性平衡

TL;DR本研究解决了大型语言模型(LLMs)在安全性与实用性之间的平衡问题,尤其针对有害内容生成的破解攻击。提出的“监狱破解解药”方法通过实时调整模型内部状态的稀疏子集,实现了安全性偏好的动态调节,显著提高了模型的安全性而不影响其实用性。实验验证了该方法在保持低计算开销和延迟的同时,能够有效应对多种破解攻击。