Oct, 2024

锁定微调大语言模型的安全性

TL;DR本研究解决了在微调大型语言模型(LLMs)时,现有安全对齐措施不足以降低安全风险的问题。提出的SafetyLock方法通过保留基础模型的安全激活表示,实现了在微调后保持强健安全性,其最显著的发现是可以将有害指令响应率从60%减少至1%以下,提供了一种可扩展的无侵入性安全保障方案。