LLMServingSim：用于大规模LLM推理服务的硬件/软件联合仿真基础设施

Aug, 2024

LLMServingSim：用于大规模LLM推理服务的硬件/软件联合仿真基础设施

LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale

Jaehong Cho, Minsu Kim, Hyunmin Choi, Guseul Heo, Jongse Park

TL;DR本研究解决了现有大语言模型（LLM）推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务，显著提高了仿真速度，并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。

Abstract

Recently, there has been an extensive research effort in building efficient large language model (LLM) inference serving systems. These efforts not only include innovations in the algorithm and software domains but also constitute developments of various Hardware Acceleration technique

发现论文，激发创造

在CPU上高效LLM推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时，在CPU上加速LLM推理，展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性，并显示了在CPU上的极高推理效率。

Nov, 2023

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

大型语言模型推理的硬件评估框架

通过LLMCompass硬件评估框架，本研究提出了性能优化和成本效益的硬件设计选择，以实现大规模语言模型的民主化。

Dec, 2023

基于英特尔GPU的高效LLM推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量，在Intel GPU上相对于标准HuggingFace实现，能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。

Dec, 2023

LLM-PQ：利用多阶段感知分割和自适应量化为异构集群提供LLM

LLM-PQ是一个提倡自适应模型量化和阶段感知模型分区的系统，旨在通过在异构GPU集群上提高LLM的服务效率。通过混合精度模型量化、阶段感知模型分区和微批量大小的决策，LLM-PQ大大提高了推理吞吐量，同时满足用户指定的模型质量目标。对11个不同集群上的生产推理工作负载进行的大量实验表明，LLM-PQ在推理上实现了高达2.88倍（平均2.26倍）的吞吐量改进，显示出较其他最先进方法的巨大优势。

Mar, 2024

Vidur：一个用于LLM推理的大规模模拟框架

优化大型语言模型（LLM）的部署非常昂贵，本文介绍了一种模拟框架Vidur，通过实验和预测模型评估LLM的性能以及寻找最佳配置来降低成本。

May, 2024

解密用于多样化 LLM 推理用例的平台要求

研究使用 GenZ 工具来探讨大型语言模型的推理性能与各种平台设计参数之间的关系，并提供配置不同工作负载和用例的平台要求，在不同场景下支持 SOTA LLMs 模型的分析，也展示了为支持未来可能超过数万亿参数的 LLMs 所需的硬件能力预测。

Jun, 2024

记忆即一切：加速大型语言模型推理的计算于内存架构综述

大型语言模型的推出带来了自然语言处理领域的重大变革，本文调查了与转换器模型有关的各种CIM构架以及它们如何解决现代人工智能计算系统面临的挑战。

Jun, 2024

LLM加速、优化和应用的新解决方案

该研究综述了针对大型语言模型（LLMs）的挑战以及提高系统效率的最新进展和研究方向，包括算法级加速技术、LLM硬件与软件协同设计策略、LLMs加速器编译方法以及利用LLMs辅助电路设计的方法。通过这些工作，旨在为LLMs在各种应用中实现更高效、可扩展的部署铺平道路。

Jun, 2024

关于在CPU上对大型语言模型进行推断性能优化的研究

该研究介绍了一种在CPU上加速大型语言模型的易于部署推理性能优化解决方案，并针对常用模型进行了定制优化。

Jul, 2024