BriefGPT.xyz
Ask
alpha
关键词
safety neurons
搜索结果 - 1
在大型语言模型中寻找安全神经元
我们通过从机理解释的角度探索安全对齐的内在机制,重点是识别和分析大语言模型中负责安全行为的安全神经元。我们提出了生成时激活对比来定位这些神经元,并提出了动态激活修复来评估其因果效应。多个最新的大语言模型的实验证明:(1)安全神经元是稀疏而有
→
PDF
20 days ago
Prev
Next