Aug, 2024

MARLIN:大型语言模型的混合精度自回归并行推断

TL;DR本研究解决了在多用户并行推断中,基于量化的混合精度推断效率问题。通过设计混合精度自回归线性内核MARLIN,本文证明在批量推断中可以实现显著的速度提升,最高可达$4\times$,并通过与vLLM服务引擎的集成,实现整体推断速度提高至$2.8\times$。该方法为大规模语言模型的高效部署提供了新的解决方案。