Apr, 2025

关于变压器长度泛化中的消失方差

TL;DR本研究解决了变压器模型在短序列训练后对长序列泛化不良的问题。我们首次从消失方差的角度证明了较长序列长度导致多头注意力模块输出方差降低的现象。实验结果显示,在注意力输出后应用层归一化显著改善了长度泛化效果,说明这种改进有助于减少由消失方差引起的分布偏移。