扫描与截屏:理解单层Transformer的训练动态和令牌组成
本研究提出了一种新的方法来理解自我注意网络:我们展示了它们的输出可以分解为若干关注头跨层序列的操作所涉及的小项相加,通过这种分解,我们证明了自我注意具有强烈的归纳偏差,具体表现为“令牌均匀性”;实验证明,不同变体的标准转换器体系结构存在收敛现象。
Mar, 2021
该论文提出了一种名为ALTI的方法,通过考虑注意力模块(multi-head attention, residual connection and layer normalization)以及定义一种新的度量方法来测量各层之间的令牌交互,从而提供更准确的输入归因分数以解释模型预测,在实验中显示ALTI比基于梯度方法更好地提供了模型预测的解释,提高了模型的鲁棒性。
Mar, 2022
探究在Transformer的自我注意层中可能发生的排名坍塌现象及其影响,发现其会导致查询和键的梯度消失,导致训练受阻,但可以通过适当的深度相关的残差分支缩放来预防,而特定的架构超参数会导致查询和值的梯度的不均衡,这解释了为什么在Transformers的优化中广泛使用自适应方法。
Jun, 2022
通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展,并对平衡和不平衡特征数据进行了分析,证明了其收敛性和预测误差。
Oct, 2023
自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机,其中学习步骤分为硬检索和软组合,梯度下降隐式地发现强连接组件并选择高优先级组件,以加工序列数据。
Mar, 2024
通过分析自我注意力机制和层标准化对秩崩溃的影响,本文发现层标准化在自我注意力的秩崩溃中起到了关键作用,为自我注意力提供了更富表现力、多功能的非线性动力系统。
May, 2024
本研究解决了现有文献对变压器在下一个标记预测(NTP)任务中表现理论理解的不足,提出了一种细致的非渐近分析方法。研究设计了一个两阶段的训练算法,证明了变压器具有显著的预测能力,尤其是在数据集迁移时,揭示了变压器卓越的泛化性能。
Sep, 2024
本研究解决了现有对Transformer模型在下一个token预测(NTP)任务性能理论理解不足的问题,尤其是在非渐近性能方面。通过数学框架分析训练数据集结构特性,并设计了一个两阶段训练算法,结果表明Transformer在数据集变化下仍展现出非平凡的预测能力,从而突显了其优秀的泛化性能。
Sep, 2024
本研究解决了注意力模型在单位置回归任务中的理论理解缺失问题,提出了一种简化的非线性自注意力层作为专用预测器,展示了其渐近贝叶斯最优性和训练动态分析。研究表明,该预测器能够有效地捕捉稀疏的令牌信息和内部线性结构。
Oct, 2024
本研究探讨了变换器中顶级标记预测固定后的计算过程,填补了对“饱和事件”的理解空白。我们提出了任务转移的机制,该机制解释了这些饱和事件的顺序发生,并为引入一种新的标记级早期退出策略奠定了基础,显著提升了性能与效率的平衡。
Oct, 2024