llm serving system | BriefGPT

关键词llm serving system

搜索结果 - 4

Llumnix: 大规模语言模型服务的动态调度
Llumnix 是一种用于大型语言模型（LLMs）服务的系统，通过在多个模型实例之间进行运行时重新调度，以应对异构且不可预测的请求，从而改善尾延迟，加快高优先级请求，并实现成本节省。
PDFa month ago
LoongServe：高效提供弹性序列并行性的长上下文大模型
提出了一种弹性序列并行性（ESP）的新并行策略，以适应大语言模型（LLMs）的不同请求和不同阶段之间的差异，并设计构建了一个名为 LoongServe 的 LLM 服务系统，该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解
PDF3 months ago
DeltaZip：通过增量压缩提供多租户语言模型服务
通过提取和压缩模型与其预训练基础模型之间的差异，DeltaZip 是一种 LLM 服务系统，可以高效地同时提供多个全参数微调模型，压缩因子可达 6 倍至 8 倍，并且可以提高服务吞吐量 1.5 倍至 3 倍，相比于香草 HuggingFac
PDF7 months ago
SpotServe: 在可中途终止的实例上为生成式大型语言模型提供服务
通过使用可中止的 GPU 实例来降低大型语言生成模型的运行成本，本文提出了 SpotServe，一个在可中止实例上实现快速、可靠且经济高效地提供生成型语言模型服务的分布式系统。它采用动态自适应并行化配置、最小化实例迁移成本的迁移规划算法，并
PDF7 months ago