Sep, 2024

揭示引导头:可证明的训练动态与变换器中的特征学习

TL;DR本研究针对大型语言模型(LLM)中上下文学习的理论基础缺乏明确解释的问题,探讨了变换器其他构件如何促进上下文学习。通过分析一个包含相对位置嵌入、多头softmax注意力和归一化前馈层的复杂变换器模型,我们证明了在交叉熵损失下的梯度流收敛到一个包含引导头机制的极限模型,从而揭示了训练动态的贡献及其潜在影响。