Oct, 2024

不要停下我:基于嵌入的LLM调度

TL;DR本研究针对大语言模型(LLM)调度中存在的请求完成时间长的问题,提出了一种新方法TRAIL。此方法利用模型自身生成的嵌入,预测运行请求的剩余长度,并结合有限的抢占机制,优化了资源利用率。实验结果表明,该方法有效减少了系统的内存开销,并提高了调度效率,具有显著的实际应用价值。