Jun, 2024

对 Transformer 语言模型的层间通信的理解

TL;DR通过分析 Transformer 语言模型中的机制,研究揭示了其通过低秩通信信道在不同层之间传递和存储特征的方式,通过分解注意力头权重矩阵进而预测层间相互作用的方法,以及利用该机制改善内部模型表示和权重来提升任务性能的结构学习,为进一步分析复杂行为提供帮助。