BriefGPT.xyz
大模型
Ask
alpha
关键词
refusal rate
搜索结果 - 1
LoRA 高效地撤销了 Llama 2-Chat 70B 中的安全训练
在研究中,我们通过秘密地微调公开权重,探索了语言模型安全训练的强壮性,成功降低了有害指令的拒绝率,证明了背离微调是切实可行和有效的。因此,我们主张在发布模型权重时,风险评估应将微调风险评估作为核心部分。
PDF
8 months ago
Prev
Next