Feb, 2025

Autellix:高效的LLM代理程序服务引擎

TL;DR本研究解决了现有大型语言模型(LLM)服务系统未考虑程序与调用之间依赖关系的问题,从而错失了优化机会。我们提出的Autellix系统通过将程序视为一等公民,利用程序级上下文丰富调度器,并引入两种调度算法显著提高了程序的吞吐量,在相同延迟下比先进系统提高了4-15倍。