Aug, 2024

LLMServingSim:用于大规模LLM推理服务的硬件/软件联合仿真基础设施

TL;DR本研究解决了现有大语言模型(LLM)推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务,显著提高了仿真速度,并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。