Oct, 2024

大语言模型安全性中注意力头的作用

TL;DR本研究解决了现有研究忽视多头注意力机制对大语言模型(LLM)安全性的影响的问题。我们提出了一种新颖的指标——安全头重要性评分(Ships),用以评估每个注意力头对模型安全性的贡献。研究发现,特定的安全注意力头在模型的安全性中起着重要作用,其缺失会显著增加模型生成有害内容的风险。