Aug, 2024

对齐大语言模型的安全层:LLM安全的关键

TL;DR本研究针对对齐大语言模型在安全性方面的挑战,阐明了内部参数在安全维护中的作用,揭示了识别恶意查询的关键“安全层”。提出了一种新颖的微调方法——安全部分参数微调(SPPFT),有效防止了安全性下降,同时节省计算资源,保持模型性能。