大型语言模型(LLMs)的计算和能源资源利用的推理性能进行了基准测试和初步分析,分析了不同规模的LLMa在两代热门GPU(NVIDIA V100和A100)以及两个数据集(Alpaca和GSM8K)上的推理性能与推理能源成本。
Oct, 2023
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时,在CPU上加速LLM推理,展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性,并显示了在CPU上的极高推理效率。
Nov, 2023
大型语言模型(LLMs)的资源效率调查,系统地介绍了提高LLMs资源效率的各种技术,包括优化策略、评估指标和可持续发展。
Jan, 2024
本文探讨了如何优化在关系查询中调用大型语言模型的LLM推断,包括重排行以最大化LLM推断引擎内的键值(KV)缓存重用,重排列列以进一步增加缓存重用,并去重复冗余的推断请求。我们在Apache Spark中实现了这些优化,在真实数据集上的多样化LLM查询基准测试中,最终端到端延迟提高了4.4倍。据我们所知,这是第一个明确解决在SQL查询中优化LLM调用问题的研究。
Mar, 2024
本文对大型语言模型(LLMs)的推理服务中能源效率的权衡进行了研究,通过探索延迟、吞吐量和能源之间的平衡,提供了优化能源使用的有价值见解,为数据中心环境中可持续且具有成本效益的LLM部署铺平了道路。
研究使用 GenZ 工具来探讨大型语言模型的推理性能与各种平台设计参数之间的关系,并提供配置不同工作负载和用例的平台要求,在不同场景下支持 SOTA LLMs 模型的分析,也展示了为支持未来可能超过数万亿参数的 LLMs 所需的硬件能力预测。
Jun, 2024
减少大型语言模型在数据中心的能耗是一个关键挑战。本文介绍了一种混合型数据中心模型,使用基于成本的调度框架来动态分配不同能效和计算能力的硬件加速器上的大型语言模型任务,以降低能量消耗。我们的工作负载感知策略根据查询中输入和输出标记的数量决定任务是在能效处理器上还是在高性能GPU上处理,我们的分析发现,与不考虑工作负载的基准相比,这种混合策略可以将CPU+GPU能耗降低7.5%。
Apr, 2024
该研究介绍了一种在CPU上加速大型语言模型的易于部署推理性能优化解决方案,并针对常用模型进行了定制优化。
Jul, 2024
本研究解决了大型语言模型推理性能中的超参数优化问题,通过分析20个大型语言模型在vLLM和HuggingFace管道中的表现。研究发现,超参数对推理吞吐量有显著影响,优化超参数可提升HuggingFace管道的吞吐量,平均分别提高9.16%和13.7%。
Aug, 2024
本研究解决了大型语言模型(LLM)推理过程中的高能耗问题,提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能,同时满足服务级目标。研究结果表明,该方法能将能耗降低多达43.8%,并在满足SLO的情况下显著提高能效。