Oct, 2024

大型语言模型推理加速:全面的硬件视角

TL;DR本研究针对大型语言模型(LLM)推理效率不足的问题,通过对不同硬件平台的综合调查,提出多种优化方法,以提升生成式LLM的推理性能。论文的关键发现是,比对不同硬件平台的推理性能,可以为未来的生成式LLM与硬件技术的发展提供重要的指导。