Feb, 2024

语言模型就是霍默・辛普森!通过任务算术重新矫正经过微调的语言模型的安全性

TL;DR通过简单的算术方法,用一个安全向量对受损模型的权重进行相加,我们提出的 LLM 安全重新对齐方法 RESTA 能够有效地降低受损模型的有害性,而在任务上保持大部分模型的性能。