Transformer在下一个 token 预测中的非渐近收敛性研究
探究在Transformer的自我注意层中可能发生的排名坍塌现象及其影响,发现其会导致查询和键的梯度消失,导致训练受阻,但可以通过适当的深度相关的残差分支缩放来预防,而特定的架构超参数会导致查询和值的梯度的不均衡,这解释了为什么在Transformers的优化中广泛使用自适应方法。
Jun, 2022
本文通过追踪每层Transformer中attention head的注意熵来检验其训练动态。作者提出了一个名为entropy collapse的现象,即低的注意熵伴随着高的训练不稳定性,提出了一种简单高效的解决方案sigma Reparam可以避免这种现象,并进一步证明了注意熵的下限。作者在图像分类、自监督学习、机器翻译、自动语音识别和语言建模任务中测试了sigma Reparam,在各种Transformer结构中均能提供更稳定和鲁棒的训练,甚至不需要预热、重量衰减、层归一化或自适应优化器。
Mar, 2023
本文对一层Transformer进行了标记和区分性扫描,流程逐渐集中于某些关键词,然后通过控制两层之间的学习速率,达到了几乎固定的标记组合,验证了该算法的动态性。
May, 2023
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
Oct, 2023
该研究建立了关于编码器式浅层Transformer的全局收敛理论,从体系结构、初始化和在有限宽度范围内的缩放的角度进行了现实情景的探究。研究重点在于如何解决Transformer核心组成部分softmax的问题。研究表明,在实践中使用的He/LeCun初始化方式下,我们的浅层Transformer的全局收敛只需要二次超参数化,且给出了基于神经切络核的分析,有助于综合比较不同缩放方案和初始化的重要性的差异。我们相信我们的研究结果对于更好地理解现代Transformer,特别是训练动态方面具有重要意义。
Nov, 2023
给定一个令牌序列,如单词,下一个令牌预测的任务是预测下一个令牌的条件概率分布。我们针对仅编码器的transformer模型的性质进行了研究,并证明了该模型可以插值下一个令牌分布的最大上下文序列的上下界,其中下界只需最小的参数数量即可实现。
May, 2024
本研究针对大型语言模型(LLM)中上下文学习的理论基础缺乏明确解释的问题,探讨了变换器其他构件如何促进上下文学习。通过分析一个包含相对位置嵌入、多头softmax注意力和归一化前馈层的复杂变换器模型,我们证明了在交叉熵损失下的梯度流收敛到一个包含引导头机制的极限模型,从而揭示了训练动态的贡献及其潜在影响。
Sep, 2024
本研究解决了现有文献对变压器在下一个标记预测(NTP)任务中表现理论理解的不足,提出了一种细致的非渐近分析方法。研究设计了一个两阶段的训练算法,证明了变压器具有显著的预测能力,尤其是在数据集迁移时,揭示了变压器卓越的泛化性能。
Sep, 2024
本研究解决了变压器在自回归学习中下一个令牌预测能力机制不明的问题。我们提出了一种新的因果核优化方法,能够明确地通过之前及当前的观测预测下一个令牌,并展示了其实验结果验证了理论发现,表明该方法对一般映射的适用性。
Oct, 2024
本研究探讨了变换器中顶级标记预测固定后的计算过程,填补了对“饱和事件”的理解空白。我们提出了任务转移的机制,该机制解释了这些饱和事件的顺序发生,并为引入一种新的标记级早期退出策略奠定了基础,显著提升了性能与效率的平衡。
Oct, 2024