Oct, 2023

LoRA 高效地撤销了 Llama 2-Chat 70B 中的安全训练

TL;DR在研究中,我们通过秘密地微调公开权重,探索了语言模型安全训练的强壮性,成功降低了有害指令的拒绝率,证明了背离微调是切实可行和有效的。因此,我们主张在发布模型权重时,风险评估应将微调风险评估作为核心部分。