Feb, 2024
语言模型就是霍默・辛普森!通过任务算术重新矫正经过微调的语言模型的安全性
Language Models are Homer Simpson! Safety Re-Alignment of Fine-tuned Language Models through Task Arithmetic
Rishabh Bhardwaj, Do Duc Anh, Soujanya Poria
TL;DR通过简单的算术方法,用一个安全向量对受损模型的权重进行相加,我们提出的 LLM 安全重新对齐方法 RESTA 能够有效地降低受损模型的有害性,而在任务上保持大部分模型的性能。