保持梯度流的情况下在训练之前选择获胜的票数
我们介绍了一种新颖而简单的神经网络剪枝框架,通过引入 Gumbel-Softmax 技术,在端到端的过程中使用随机梯度下降同时优化网络的权重和拓扑结构,实现了网络的卓越压缩能力,保持了在 MNIST 数据集上的高准确性,仅使用了原始网络参数的 0.15%。此外,我们的框架提升了神经网络的可解释性,不仅能够轻松从剪枝网络中提取特征重要性,而且能够可视化特征对称性和信息传递路径,学习策略通过深度学习得到,但却令人惊讶地直观且可理解,专注于选择重要的代表性特征并利用数据模式实现极度稀疏的剪枝。我们相信我们的方法为深度学习剪枝和可解释的机器学习系统的创建开辟了有前途的新途径。
Nov, 2023
我们提出了一种不需要训练数据也能够在初始阶段识别高度稀疏的可训练子网络的剪枝算法,该算法基于神经突触流动原理并叫做迭代神经突触流剪枝算法(SynFlow),在多种模型、数据集和稀疏约束条件下,表现出和现有最先进的基于梯度的剪枝算法相当或更好的结果,成功挑战了基于训练数据来定量判断哪些突触重要的传统范式。
Jun, 2020
提出了一种新的神经网络卷积核剪枝方法,通过 Taylor 扩展来近似剪枝参数变化引起的代价函数的改变,并结合反向传播的微调来保持剪枝网络的良好泛化性能,该方法在细粒度分类任务中表现出优异的性能。
Nov, 2016
本文提出了一种搜索被称为 "lottery jackpots" 的高性能、稀疏的子网络的方法,通过使用基于幅值的裁剪技术初始化稀疏掩码并使用短限制方法减少训练损失,从而提高搜索效率和准确性。
Apr, 2021
本论文研究了通过神经再生技术改进的渐进式剪枝算法(GraNet),它结合了取得与单次剪枝同等性能和训练 / 推理效率的优点,尤其是其稀疏 - 稀疏模式极大地提高了 ResNet-50 在 ImageNet 上的性能。
Jun, 2021
本研究发现,在针对低资源设置中减少深度模型推理成本的网络修剪过程中,训练大模型通常不是获得高效终端模型的必要条件,学到的 “重要” 权重通常对小模型没有用,修剪的架构本身比继承的 “重要” 权重更重要,并且此方法可作为架构搜索范式。本文还比较了 “Lottery Ticket Hypothesis”,发现在最佳学习率下,与随机初始化相比,其 “获胜券” 初始化并未带来提高。
Oct, 2018