BriefGPT.xyz
Ask
alpha
关键词
latency variance
搜索结果 - 1
ICML
拼贴推理:使用编码冗余模型在分布式图像分类期间实现低尾延迟
提出了一种使用 Collage-CNN 模型结合 MLaaS 平台的低成本冗余框架来降低 Inference 的尾延迟,并降低推理延迟的变异性的方法。实验表明,相对于以复制为基础的方法,可以将推理的 99-percentile 尾延迟降低
→
PDF
5 years ago
Prev
Next