Apr, 2025

驯服巨人:高效大语言模型推理服务的调查

TL;DR本研究针对大语言模型推理服务中的高延迟和低吞吐量问题,进行全面调查,填补了该领域的研究空白。论文介绍了一系列创新方法,包括实例级和集群级的策略,系统地分析了模型部署、请求调度和负载均衡等关键环节。研究结果显示,优化这些方法能显著改善LLM推理服务的性能,推动该领域的进步。