ACLJun, 2021

FastSeq: 使序列生成更快

TL;DR本文介绍了基于 Transformer 的自然语言生成模型在解码过程中存在推理速度瓶颈,提出了 FastSeq 框架以加速序列生成,采用了注意力缓存优化、重复 n-gram 检测、并行 IO 等优化技术,有效提升了推理速度,并且可以适用于多种 Transformer-based 模型,其中代表性的 T5、GPT2 和 UniLM 等。