关于在CPU上对大型语言模型进行推断性能优化的研究
FastServe是一种分布式推理服务系统,利用预emption技术在输出单词级别上最小化了Large language models的inference时间,并采用GPU内存管理机制,与现有解决方案相比可将平均和tail JCT分别提高了5.1倍和6.4倍。
May, 2023
大型语言模型(LLMs)的计算和能源资源利用的推理性能进行了基准测试和初步分析,分析了不同规模的LLMa在两代热门GPU(NVIDIA V100和A100)以及两个数据集(Alpaca和GSM8K)上的推理性能与推理能源成本。
Oct, 2023
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时,在CPU上加速LLM推理,展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性,并显示了在CPU上的极高推理效率。
Nov, 2023
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量,在Intel GPU上相对于标准HuggingFace实现,能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。
Dec, 2023
LLM-PQ是一个提倡自适应模型量化和阶段感知模型分区的系统,旨在通过在异构GPU集群上提高LLM的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策,LLM-PQ大大提高了推理吞吐量,同时满足用户指定的模型质量目标。对11个不同集群上的生产推理工作负载进行的大量实验表明,LLM-PQ在推理上实现了高达2.88倍(平均2.26倍)的吞吐量改进,显示出较其他最先进方法的巨大优势。
Mar, 2024
本研究解决了大型语言模型推理性能中的超参数优化问题,通过分析20个大型语言模型在vLLM和HuggingFace管道中的表现。研究发现,超参数对推理吞吐量有显著影响,优化超参数可提升HuggingFace管道的吞吐量,平均分别提高9.16%和13.7%。
Aug, 2024
本研究解决了现有大语言模型(LLM)推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务,显著提高了仿真速度,并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。
Aug, 2024
本研究解决了大型语言模型(LLM)推理过程中的高能耗问题,提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能,同时满足服务级目标。研究结果表明,该方法能将能耗降低多达43.8%,并在满足SLO的情况下显著提高能效。
Aug, 2024