分解彩票网络变形器:稀疏神经机器翻译的结构和行为研究
研究表明,通过稀疏模型、神经网络和剪枝技术等手段,可以在交互式设备和时间关键型计算中快速实现预测,找到了一种新的剪枝技术,该技术不仅优于其他技术,而且对于高密度稀疏性水平的情况具有很大的优势。
May, 2020
本文从彩票猜想的角度探究了大型基于 Transformer 的模型可以通过剪枝获得可比拟完整模型性能的子网络。使用结构剪枝和数量剪枝对 Fine-tuned BERT 进行实验,发现即使是最差的子网络也表现良好,表明预训练 BERT 的大多数权重可能都是有用的。
May, 2020
该研究使用彩票票据原理,提出了一种适用于深度脉冲神经网络(SNN)的神经剪枝技术,即运用早期时间(ET)票据来减少彩票票据原理的搜索时间,该方法在不降低性能的情况下使得 SNN 的鲁棒性得到了极大提高。
Jul, 2022
本文提出一种新方法,通过迭代的裁剪与一系列 “后处理技术”,找到带有结构化稀疏性的获奖子网络,从而在不影响模型精度的情况下,显著提高模型的推理速度。
Feb, 2022
该文在进行神经网络剪枝过程中提出了 “彩票票假设”,即在一个密集、随机初始化的前馈神经网络中存在一些幸运的子网络,当其被隔离地训练时,可以在相似的迭代次数内达到与原始网络相当的测试准确性,通过一系列实验验证了该假设的正确性和这些幸运初始化的重要性。
Mar, 2018
通过开发一种在神经网络随机初始化时具有理想特性的彩票中隐藏并发掘出触及四项挑战性任务的采用最先进剪枝方法的框架,我们发现算法的限制基本上是算法性质的。
Nov, 2021
本文 comprehensively 研究了 multiple pre-trained vision and language transformers 的 induced sparse patterns,进一步导出了 essential sparsity 和 abrupt sparsification 两个主要发现,同时研究发现大规模 pre-training 能够缩减模型大小(参数数量),且 self-supervised learning 会比 supervised learning 对模型压缩效果更好。
Jun, 2023
深度神经网络的票证彩票假设强调了重新训练使用迭代幅度修剪过程获得的更稀疏网络所使用的初始化的重要性。这项研究试图通过对幅度修剪过程的各个阶段获得的解决方案的体积 / 几何和损失景观特征进行经验性研究,以揭示票证彩票假设的特定初始化为何在泛化(和训练)性能方面表现更好,并着重研究了幅度修剪和迭代过程的底层原理,如较小幅度权重的修剪和迭代过程的作用。
Mar, 2024
本研究证实了 Lottery Ticket Hypothesis 可适用于 deep generative models 并提出了一种寻找 winning tickets 的有效方法,同时发现这些 winning tickets 有跨模型的传递性,因此可以帮助训练多种深度生成模型,并通过 early-bird tickets 的方式可以大幅减少训练时间和 FLOPs。
Oct, 2020
本文基于 Lottery Ticket Hypothesis 对一系列迁移学习任务进行研究,通过使用无结构量级剪枝来发现最优子网络,实验结果表明减少约 90-95% 权重的稀疏子网络在多个现实场景下能够达到或超过原始网络的准确度。
May, 2019