BriefGPT.xyz
Ask
alpha
关键词
security vectors
搜索结果 - 1
大型语言模型使有害行为无法学习
通过引入安全向量 `security vectors` 并在微调过程中激活,使得大型语言模型 `LLMs` 产生一致性响应,从而防止其学习有害行为。在推断过程中,我们可以关闭安全向量以恢复正常行为。实验结果表明,使用 100 个有害样本生成
→
PDF
8 months ago
Prev
Next