BriefGPT.xyz
Oct, 2024
不要停下我:基于嵌入的LLM调度
Don't Stop Me Now: Embedding Based Scheduling for LLMs
HTML
PDF
Rana Shahout, Eran Malach, Chunwei Liu, Weifan Jiang, Minlan Yu...
TL;DR
本研究针对大语言模型(LLM)调度中存在的请求完成时间长的问题,提出了一种新方法TRAIL。此方法利用模型自身生成的嵌入,预测运行请求的剩余长度,并结合有限的抢占机制,优化了资源利用率。实验结果表明,该方法有效减少了系统的内存开销,并提高了调度效率,具有显著的实际应用价值。
Abstract
Efficient
Scheduling
is crucial for interactive Large Language Model (LLM) applications, where low request completion time directly impacts user engagement. Size-based
Scheduling
algorithms like Shortest Remainin
→