BriefGPT.xyz
Ask
alpha
关键词
attention head
搜索结果 - 2
语言模型中的段落记忆定位
我们研究了语言模型中记忆和背诵整个段落时使用的权重和机制是否可以被定位,我们发现记忆分布在多个层和模型组件中,而记忆段落的渐变具有可辨别的空间模式,较低模型层的渐变比非记忆示例的渐变更大。此外,只需通过微调高渐变权重即可取消对记忆示例的学习
→
PDF
3 months ago
抑制复制:全面理解注意力头
GPT-2 Small 模型的 Attention Head 10.7 (L10H7) 通过抑制复制行为实现模型校准和自修复。
PDF
9 months ago
Prev
Next