May, 2024

Conveyor:具备工具部分执行的高效工具感知 LLM 服务

TL;DR通过与外部工具调用的集成,我们确定了一个新的机会来有效地为触发工具的请求提供 LLM 服务:在 LLM 解码过程中进行工具的部分执行。我们设计了 Conveyor,一种专门用于处理涉及外部工具的请求的高效 LLM 服务系统。我们引入了一种面向工具开发人员的新颖界面,以向 LLM 服务系统暴露部分执行的机会,并提供了一个请求调度程序来促进工具的部分执行。我们的结果表明,部分执行可以将请求完成的延迟缩短高达 38.8%。