Feb, 2023

Transformer 推理的全栈优化:一项调查

TL;DR本文调查了提高 Transformer 模型推理效率的不同方法,包括分析现有模型架构的瓶颈和硬件设计的影响,调度操作的挑战,以及通过神经网络架构搜索来优化 Transformer 模型等研究方向。最后,作者将这些方法应用于一个开源的全栈 DNN 加速器生成器中,并表明这些方法都可以对提高模型推理速度产生影响,其中最优的全栈设计方法可以将速度提高多达 88.7 倍,同时性能基本不受损害