FastSeq: 使序列生成更快

ACLJun, 2021

FastSeq: Make Sequence Generation Faster

Yu Yan, Fei Hu, Jiusheng Chen, Nikhil Bhendawade, Ting Ye...

TL;DR本文介绍了基于 Transformer 的自然语言生成模型在解码过程中存在推理速度瓶颈，提出了 FastSeq 框架以加速序列生成，采用了注意力缓存优化、重复 n-gram 检测、并行 IO 等优化技术，有效提升了推理速度，并且可以适用于多种 Transformer-based 模型，其中代表性的 T5、GPT2 和 UniLM 等。

Abstract

transformer-based models have made tremendous impacts in natural language generation. However the inference speed is a bottleneck due to large model size and intensive computing involved in auto-regressive decoding process. We develop →

transformer-based models fastseq framework accelerate sequence generation optimization techniques inference speed gain

发现论文，激发创造

LightSeq：Transformer 高性能推理库

本文提出 LightSeq，一种高效的推断库，以加速 Transformer 系列模型的计算和减少内存占用。实验结果表明，相较于 TensorFlow 和 FasterTransformer，LightSeq 可以实现多达 14 倍的加速。

Oct, 2020

IceFormer: 基于 CPU 的长序列 Transformer 加速推理

通过加速自注意机制在推断时的方法，我们成功加速了各种长序列转换器，并在各个基准测试中展示了 2.73 倍 - 7.63 倍的速度提升，同时保留了 98.6%-99.6% 的原始预训练模型的准确性。

May, 2024

线性时间中的 Transformer 质量

本文提出使用门控注意力单元和线性近似方法改良 Transformers 模型的方法，新模型命名为 FLASH。该模型在短序列和长序列上都达到了改良 Transformers 的分词结果，同时在 Wiki-40B 和 PG-19 的自回归语言模型上训练速度最多提升了 4.9 倍，在掩蔽语言模型上提升了 4.8 倍。

Feb, 2022

Seq2Seq 模型的深度语音合成系统

本研究介绍对 Seq2seq 架构的修改，以提高神经网络基础的文本到语音 / 语音合成流程的训练速度和模型的性能，同时保证合成语音的音质。

Mar, 2019

Fastformer：加性注意力足矣

本文介绍了 Fastformer 模型，这是一种基于加法注意力的高效 Transformer 模型，与现有的 Transformer 模型相比，它可以更有效地建模长文本，并且具有线性复杂度。

Aug, 2021

超长序列分布式 Transformer

这篇论文提出了一种新颖高效的分布式训练方法，使用长短序列变压器（LSS Transformer）来训练长序列的变压器，将长序列分布到多个 GPU 上进行计算，并通过融合通信和双梯度平均技术来提高训练效率和减少通信开销。与最先进的序列并行方法相比，在 Wikipedia enwik8 数据集上，我们的方法在 144 个 Nvidia V100 GPU 上实现了 5.6 倍的加速和 10.2 倍的内存效率，且在 3,456 个 GPU 上可扩展到长度达到 50,112 的极限序列，实现了 161% 的超线性并行效率和 32 petaflops 的吞吐量。

Nov, 2023

序列转序列模型中更好的解码和语言模型集成

该研究分析了一个基于注意力机制的序列到序列语音识别系统，提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案，并在没有语言模型的情况下，其词错误率为 10.6％，与 trigram 语言模型一起达到了 6.7％的词错误率。

Dec, 2016

FastFormers: 高效 Transformer 模型的自然语言理解

本研究提出了 FastFormers 来加快基于 Transformer 模型的 NLU 任务的推理效率，可以通过运用知识蒸馏、结构剪枝和数值优化等方法，将预处理模型在 CPU 和 GPU 上的速度提高至 9.8-233.9 倍，节省成本的同时降低能耗。

Oct, 2020

Levenshtein Transformer

本文提出了一种部分自回归模型 Levenshtein Transformer，在线性时间复杂度内支持插入和删除操作，实现了互补的拆解和精细化的设计思路，成功地提高了机器翻译和文本自动编辑的效率。

May, 2019

高效译码的投机流水线执行

通过使用预测值，基于 Transformer 架构的生成式大型语言模型 (SPEED) 能够并行地执行当前令牌以及多个未来令牌，从而提高推理效率，减少延迟，并在保持模型准确性的同时实现支持参数共享的更深层次解码器的训练。

Oct, 2023