Feb, 2020

通过模型冻结加速深度学习推理

TL;DR通过缓存中间层输出,可以避免运行所有 DNN 层,从而减少预测延迟,本文介绍了 Freeze Inference 系统,它通过在每个中间层引入逼近缓存,并讨论如何减小缓存大小和提高缓存命中率,未来的挑战也被提出。