Dec, 2023

SuperServe:面向不可预知工作负载的细粒度推断服务

TL;DR通过在权重共享的 SuperNetworks 中插入专门的操作符,SubNetAct 机制动态地将请求导向网络以满足延迟和准确性目标,从而同时提供覆盖延迟 - 准确性权衡空间的全范围模型服务。SuperServe 系统在 Microsoft Azure Functions 的真实工作负载和大范围的极度突发性合成负载中表现出最佳的平衡效果。