Nov, 2022

高效扩展 Transformer 推理

TL;DR该研究旨在提高 Transformers 模型的生成推理效率,并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡,从而支持 Token 的大批量处理和长文本生成。