BriefGPT.xyz
Jun, 2023
利用$L_1/L_2$ 正则化潜在变量压缩端到端神经网络
End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$ Regularized Latency Surrogates
HTML
PDF
Anshul Nasery, Hardik Shah, Arun Sai Suggala, Prateek Jain
TL;DR
提出了一种通过优化模型的浮点运算次数(FLOPs)或设备延迟来进行前馈神经网络(NN)压缩的端到端技术,可以与多种流行的压缩方法一起使用,并且需要比NAS方法少得多的训练计算,可以实现大幅度的压缩而仍保持准确性。
Abstract
neural network
(NN)
compression
via techniques such as pruning,
quantization
requires setting
→