May, 2023

Flover: 一种用于高效自回归模型并行推理的时空融合框架

TL;DR在深度学习领域,为了提高模型推理性能,文章提出了名为Flavor的时序融合框架,它可应用于各种推理场景,通过提供更细粒度的并行性和采用有效的内存洗牌算法,相对于NVIDIA Triton FasterTransformer等先进解决方案,Flavor实现了GPT模型高达11倍的更快推理,同时也跨越了硬件边界。