BriefGPT.xyz
Ask
alpha
关键词
inference requests
搜索结果 - 1
通过模型冻结加速深度学习推理
通过缓存中间层输出,可以避免运行所有 DNN 层,从而减少预测延迟,本文介绍了 Freeze Inference 系统,它通过在每个中间层引入逼近缓存,并讨论如何减小缓存大小和提高缓存命中率,未来的挑战也被提出。
PDF
4 years ago
Prev
Next