Dec, 2023

Apparate: 重新思考早期退出以控制 ML 服务中的延迟与吞吐量矛盾

TL;DR通过在机器学习推理模型中应用和管理早期退出技术,Apparate系统实现了运行时监测和适应策略,以降低响应延迟,不影响吞吐量或准确性。