多层变换器梯度的近似计算可在近线性时间内完成
研究了不同顺序的多层Transformer结构对性能的影响,提出了一种新的顺序——三明治变压器模型,并在多个语言模型基准测试中验证了其性能优势。
Nov, 2019
Mesa是一种针对Transformers网络进行训练的内存优化框架,采用精确激活函数和低精度激活函数相结合的方式进行训练,结合头部激活函数的统计学信息对激活函数进行量化,通过对估计运行量的量化进行参数学习以提高训练效率,可在保证计算资源有限的情况下达到优异的性能表现。
Nov, 2021
通过提出一种新的训练策略,根据每个参数的敏感度自适应调整学习率,以减少冗余并改善泛化性能。该训练方法在自然语言理解、神经机器翻译和图像分类方面取得了显著的有效性。
Feb, 2022
本文提出使用门控注意力单元和线性近似方法改良Transformers模型的方法,新模型命名为FLASH。该模型在短序列和长序列上都达到了改良Transformers的分词结果,同时在Wiki-40B和PG-19的自回归语言模型上训练速度最多提升了4.9倍,在掩蔽语言模型上提升了4.8倍。
Feb, 2022
论文研究了Transformer网络模型训练的问题,并提出了一种新的凸分析方法来解决这个问题,进而提供了这些网络模型的理论解释以及性能优化方法。
Nov, 2022
本文调查了提高Transformer模型推理效率的不同方法,包括分析现有模型架构的瓶颈和硬件设计的影响,调度操作的挑战,以及通过神经网络架构搜索来优化Transformer模型等研究方向。最后,作者将这些方法应用于一个开源的全栈DNN加速器生成器中,并表明这些方法都可以对提高模型推理速度产生影响,其中最优的全栈设计方法可以将速度提高多达88.7倍,同时性能基本不受损害
Feb, 2023
提出 Transformer in Transformer(TinT) 的概念,在大型模板训练语言模型中,TinT允许transformer在推断时模拟和微调复杂的内部模型,并通过创新的近似技术提高效率,并在多种语言建模和下游任务中验证TinT的内部微调过程。
Jul, 2023
提出了一种名为MASFormer的变种Transformer模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的Transformer模型相媲美的性能,同时显著降低计算成本(多达75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。
Oct, 2023
SwitchHead是一种新颖的方法,通过使用混合专家(Mixture-of-Experts)层和较少的自注意力矩阵,减少计算和内存需求,实现与基线Transformers相同参数预算的语言建模性能,进而获得了墙钟速度的提升。
Dec, 2023