Aug, 2024

解药:大型语言模型的后微调安全对齐以应对有害微调

TL;DR本研究解决了安全对齐的大型语言模型(LLMs)在微调阶段受到有害数据攻击的问题,现有防御方法在特定训练超参数下无法有效执行。我们提出的“解药”方法,通过在有害微调后进行一次性剪枝,去除有害权重,实现了与微调阶段训练超参数无关的安全恢复,实验结果显示其能够有效降低有害输出,同时保持下游任务的准确性。