训练前进行修剪可能改善泛化性能,可以证明
通过在高维度中训练剪枝神经网络并与梯度下降算法结合,我们研究了剪枝网络对广泛类统计模型学习的影响,发现剪枝神经网络在样本复杂度上相比未剪枝网络有提升,并引入了相关统计查询下界来支持这一观点。
Jun, 2024
通过分析剪枝过程中的行为,我们发现剪枝的波动性(即剪枝后的测试准确性下降)可以提高泛化性能,这种 “泛化稳定性交换” 的现象出现在各种剪枝设置中,可能是因为剪枝类似于注入噪声的效果而导致正则化,从而产生泛化改进,这可以解释剪枝提高泛化和过度参数化网络高泛化性能的相容性。
Jun, 2019
该研究旨在通过初始修剪神经网络来提高训练和测试时的资源效率。通过保留网络中的梯度流,提出了一个名为 GraSP 的简单但有效的剪枝标准,并在 VGGNet 和 ResNet 架构上进行了广泛实验,证明其在极度稀疏的情况下具有更好的性能。
Feb, 2020
我们介绍了一种新颖而简单的神经网络剪枝框架,通过引入 Gumbel-Softmax 技术,在端到端的过程中使用随机梯度下降同时优化网络的权重和拓扑结构,实现了网络的卓越压缩能力,保持了在 MNIST 数据集上的高准确性,仅使用了原始网络参数的 0.15%。此外,我们的框架提升了神经网络的可解释性,不仅能够轻松从剪枝网络中提取特征重要性,而且能够可视化特征对称性和信息传递路径,学习策略通过深度学习得到,但却令人惊讶地直观且可理解,专注于选择重要的代表性特征并利用数据模式实现极度稀疏的剪枝。我们相信我们的方法为深度学习剪枝和可解释的机器学习系统的创建开辟了有前途的新途径。
Nov, 2023
本研究探讨了如何在现代神经网络中使用稀疏训练,提出了初始化时的随机剪枝能够有效地提高神经网络的稀疏训练性能,结果表明此方法可以匹配对应的密集网络,达到了预期效果,并且进行适当的层级稀疏比率的选择,可以进一步提高性能。
Feb, 2022
本研究发现,在针对低资源设置中减少深度模型推理成本的网络修剪过程中,训练大模型通常不是获得高效终端模型的必要条件,学到的 “重要” 权重通常对小模型没有用,修剪的架构本身比继承的 “重要” 权重更重要,并且此方法可作为架构搜索范式。本文还比较了 “Lottery Ticket Hypothesis”,发现在最佳学习率下,与随机初始化相比,其 “获胜券” 初始化并未带来提高。
Oct, 2018
本文系统梳理了当前深度学习领域中关于稀疏性技术的研究现状,并提供了丰富的稀疏性实现、训练策略及其数学方法等方面的教程,指明如何通过利用稀疏性以达到优化神经网络结构和提高性能的目的。
Jan, 2021