Jul, 2024
联合修剪与通道混合精度量化用于高效的深度神经网络
Joint Pruning and Channel-wise Mixed-Precision Quantization for
Efficient Deep Neural Networks
Beatrice Alessandra Motetti, Matteo Risso, Alessio Burrello, Enrico Macii, Massimo Poncino...
TL;DR通过轻量级的基于梯度的搜索方法和硬件感知的方式,结合稀疏化和混合精度量化的优化技术,在减小延迟和内存占用方面获得Pareto最优的准确性与成本(即延迟或内存)之间的深度神经网络。