Nov, 2022

高效扩展Transformer推理

TL;DR该研究旨在提高Transformers模型的生成推理效率,并通过多维分区技术、低级优化等策略获得较佳的推理效率和FLOPS利用率权衡,从而支持Token的大批量处理和长文本生成。