Mar, 2024

通过刺激训练增强稀疏化

TL;DR基于稀疏化剪枝的研究中,我们提出了一种增强稀疏化范式的结构化剪枝框架 (STP),通过自蒸馏的方式维持被剪枝权重的大小并增强保留权重的表现力。此外,为了找到最优的剪枝网络架构,我们采用了多维架构空间和知识蒸馏引导的探索策略,同时使用子网变异扩展技术来减小蒸馏的容量差距。大量实验证明了 STP 的有效性,特别是在极度激进的剪枝情况下,例如在 ImageNet 上对 ResNet-50 进行剪枝,保持 95.11% 的 Top-1 准确率(从 76.15% 减少 85% 的浮点操作)。