FastSeq: 使序列生成更快
本文提出 LightSeq,一种高效的推断库,以加速 Transformer 系列模型的计算和减少内存占用。实验结果表明,相较于 TensorFlow 和 FasterTransformer,LightSeq 可以实现多达 14 倍的加速。
Oct, 2020
通过加速自注意机制在推断时的方法,我们成功加速了各种长序列转换器,并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升,同时保留了 98.6%-99.6% 的原始预训练模型的准确性。
May, 2024
本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法,新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果,同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍,在掩蔽语言模型上提升了 4.8 倍。
Feb, 2022
本文介绍了 Fastformer 模型,这是一种基于加法注意力的高效 Transformer 模型,与现有的 Transformer 模型相比,它可以更有效地建模长文本,并且具有线性复杂度。
Aug, 2021
这篇论文提出了一种新颖高效的分布式训练方法,使用长短序列变压器(LSS Transformer)来训练长序列的变压器,将长序列分布到多个 GPU 上进行计算,并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比,在 Wikipedia enwik8 数据集上,我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率,且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列,实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。
Nov, 2023
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
本研究提出了 FastFormers 来加快基于 Transformer 模型的 NLU 任务的推理效率,可以通过运用知识蒸馏、结构剪枝和数值优化等方法,将预处理模型在 CPU 和 GPU 上的速度提高至 9.8-233.9 倍,节省成本的同时降低能耗。
Oct, 2020
本文提出了一种部分自回归模型 Levenshtein Transformer,在线性时间复杂度内支持插入和删除操作,实现了互补的拆解和精细化的设计思路,成功地提高了机器翻译和文本自动编辑的效率。
May, 2019
通过使用预测值,基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌,从而提高推理效率,减少延迟,并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。
Oct, 2023