Mar, 2024

ALTO: 一个高效的用于复合AI系统的网络协调器

TL;DRALTO是一种网络编排器,用于高效地服务复合AI系统,例如语言模型的流水线。ALTO通过利用生成性语言模型的优化机会,即流式中间输出,实现高吞吐量和低延迟。我们强调了在跨分布式管道阶段实现中间数据流的两个新挑战:正确性和负载均衡,并提出了聚合感知路由接口和分布式提示感知调度的需求来解决这些挑战。我们展示了ALTO的部分输出流对复杂的聊天机器人验证流水线的影响,在固定延迟目标为4秒/请求的条件下,增加吞吐量最多可达到3倍,同时与基准服务方法相比,减少了尾延迟1.8倍。