Nov, 2023

大型语言模型使有害行为无法学习

TL;DR通过引入安全向量 `security vectors` 并在微调过程中激活,使得大型语言模型 `LLMs` 产生一致性响应,从而防止其学习有害行为。在推断过程中,我们可以关闭安全向量以恢复正常行为。实验结果表明,使用 100 个有害样本生成的安全向量足以防止 LLM 学习 1000 个有害样本,同时保留学习其他有用信息的能力。