BriefGPT.xyz
Ask
alpha
关键词
adversarially designed training examples
搜索结果 - 1
微调对齐语言模型牺牲了安全性,即使用户并无此意!
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而,此类自定义微调的安全成本是多少?我们的研究发现,尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为,但当将微调权限
→
PDF
9 months ago
Prev
Next