BriefGPT.xyz
大模型
Ask
alpha
关键词
llm serving system
搜索结果 - 4
Llumnix: 大规模语言模型服务的动态调度
Llumnix 是一种用于大型语言模型(LLMs)服务的系统,通过在多个模型实例之间进行运行时重新调度,以应对异构且不可预测的请求,从而改善尾延迟,加快高优先级请求,并实现成本节省。
PDF
a month ago
LoongServe:高效提供弹性序列并行性的长上下文大模型
提出了一种弹性序列并行性(ESP)的新并行策略,以适应大语言模型(LLMs)的不同请求和不同阶段之间的差异,并设计构建了一个名为 LoongServe 的 LLM 服务系统,该系统通过实时弹性调整并行度、减少键值缓存迁移开销、同时计算部分解
→
PDF
3 months ago
DeltaZip:通过增量压缩提供多租户语言模型服务
通过提取和压缩模型与其预训练基础模型之间的差异,DeltaZip 是一种 LLM 服务系统,可以高效地同时提供多个全参数微调模型,压缩因子可达 6 倍至 8 倍,并且可以提高服务吞吐量 1.5 倍至 3 倍,相比于香草 HuggingFac
→
PDF
7 months ago
SpotServe: 在可中途终止的实例上为生成式大型语言模型提供服务
通过使用可中止的 GPU 实例来降低大型语言生成模型的运行成本,本文提出了 SpotServe,一个在可中止实例上实现快速、可靠且经济高效地提供生成型语言模型服务的分布式系统。它采用动态自适应并行化配置、最小化实例迁移成本的迁移规划算法,并
→
PDF
7 months ago
Prev
Next