BriefGPT.xyz
Ask
alpha
关键词
low-rank communication channels
搜索结果 - 1
对 Transformer 语言模型的层间通信的理解
通过分析 Transformer 语言模型中的机制,研究揭示了其通过低秩通信信道在不同层之间传递和存储特征的方式,通过分解注意力头权重矩阵进而预测层间相互作用的方法,以及利用该机制改善内部模型表示和权重来提升任务性能的结构学习,为进一步分析
→
PDF
23 days ago
Prev
Next