Apr, 2024

通过训练后的层内多精度量化减少 DNN 内存占用

TL;DR为了在资源受限的边缘设备上部署深度神经网络模型并保护隐私,本文介绍了一种有效减小深度神经网络内存占用的技术,该技术名为后训练内层多精度量化(PTILMPQ),通过估计网络中层和通道的重要性,实现了在量化过程中的精确位分配。实验结果表明,PTILMPQ 为在内存资源受限的边缘设备上部署深度神经网络提供了有希望的解决方案,例如,在 ResNet50 的情况下,它以 9.5MB 的内存占用达到了 74.57% 的准确率,相比之前类似方法减小了 25.49%,仅有 1.08% 的准确率下降。