BriefGPT.xyz
Ask
alpha
关键词
inference serving
搜索结果 - 2
Llumnix: 大规模语言模型服务的动态调度
Llumnix 是一种用于大型语言模型(LLMs)服务的系统,通过在多个模型实例之间进行运行时重新调度,以应对异构且不可预测的请求,从而改善尾延迟,加快高优先级请求,并实现成本节省。
PDF
a month ago
迈向更环保的 LLM:将能源效率置于 LLM 推理的前沿
本文对大型语言模型(LLMs)的推理服务中能源效率的权衡进行了研究,通过探索延迟、吞吐量和能源之间的平衡,提供了优化能源使用的有价值见解,为数据中心环境中可持续且具有成本效益的 LLM 部署铺平了道路。
PDF
3 months ago
Prev
Next