分解彩票网络变形器：稀疏神经机器翻译的结构和行为研究

EMNLPSep, 2020

分解彩票网络变形器：稀疏神经机器翻译的结构和行为研究

Dissecting Lottery Ticket Transformers: Structural and Behavioral Study of Sparse Neural Machine Translation

Rajiv Movva, Jason Y. Zhao

TL;DR利用稀疏 Transformer 进行神经机器翻译可以保证 BLEU 分数，但通过剪枝会影响模型的学习表征，随着剪枝过程中低振幅权重的削减，语义信息的复杂性首先降低，同时在保持注意力机制的一致性的情况下，稀疏模型的早期层开始了更多的编码。

Abstract

Recent work on the lottery ticket hypothesis has produced highly sparse Transformers for nmt while maintaining BLEU. However, it is unclear how such →

lottery ticket hypothesis sparse transformers nmt pruning techniques attention mechanisms

发现论文，激发创造

成功将稳定化彩票假设应用于 Transformer 结构

研究表明，通过稀疏模型、神经网络和剪枝技术等手段，可以在交互式设备和时间关键型计算中快速实现预测，找到了一种新的剪枝技术，该技术不仅优于其他技术，而且对于高密度稀疏性水平的情况具有很大的优势。

May, 2020

当 BERT 玩彩票时，每张彩票都是获胜的

本文从彩票猜想的角度探究了大型基于 Transformer 的模型可以通过剪枝获得可比拟完整模型性能的子网络。使用结构剪枝和数量剪枝对 Fine-tuned BERT 进行实验，发现即使是最差的子网络也表现良好，表明预训练 BERT 的大多数权重可能都是有用的。

May, 2020

探索突触传递网络中的抽奖票假设

该研究使用彩票票据原理，提出了一种适用于深度脉冲神经网络（SNN）的神经剪枝技术，即运用早期时间（ET）票据来减少彩票票据原理的搜索时间，该方法在不降低性能的情况下使得 SNN 的鲁棒性得到了极大提高。

Jul, 2022

粗化粒度：朝向结构稀疏的彩票神经元

本文提出一种新方法，通过迭代的裁剪与一系列 “后处理技术”，找到带有结构化稀疏性的获奖子网络，从而在不影响模型精度的情况下，显著提高模型的推理速度。

Feb, 2022

彩票假说：寻找稀疏的可训练神经网络

该文在进行神经网络剪枝过程中提出了 “彩票票假设”，即在一个密集、随机初始化的前馈神经网络中存在一些幸运的子网络，当其被隔离地训练时，可以在相似的迭代次数内达到与原始网络相当的测试准确性，通过一系列实验验证了该假设的正确性和这些幸运初始化的重要性。

Mar, 2018

植物寻觅：你能找到获胜的门票吗？

通过开发一种在神经网络随机初始化时具有理想特性的彩票中隐藏并发掘出触及四项挑战性任务的采用最先进剪枝方法的框架，我们发现算法的限制基本上是算法性质的。

Nov, 2021

大型预训练模型中基本稀疏性的出现：重要的权重

本文 comprehensively 研究了 multiple pre-trained vision and language transformers 的 induced sparse patterns，进一步导出了 essential sparsity 和 abrupt sparsification 两个主要发现，同时研究发现大规模 pre-training 能够缩减模型大小（参数数量），且 self-supervised learning 会比 supervised learning 对模型压缩效果更好。

Jun, 2023

彩票票假设与迭代剪枝的深入洞察

深度神经网络的票证彩票假设强调了重新训练使用迭代幅度修剪过程获得的更稀疏网络所使用的初始化的重要性。这项研究试图通过对幅度修剪过程的各个阶段获得的解决方案的体积 / 几何和损失景观特征进行经验性研究，以揭示票证彩票假设的特定初始化为何在泛化（和训练）性能方面表现更好，并着重研究了幅度修剪和迭代过程的底层原理，如较小幅度权重的修剪和迭代过程的作用。

Mar, 2024

深度生成模型中的中奖彩票

本研究证实了 Lottery Ticket Hypothesis 可适用于 deep generative models 并提出了一种寻找 winning tickets 的有效方法，同时发现这些 winning tickets 有跨模型的传递性，因此可以帮助训练多种深度生成模型，并通过 early-bird tickets 的方式可以大幅减少训练时间和 FLOPs。

Oct, 2020

稀疏转移学习中的优胜彩票算法

本文基于 Lottery Ticket Hypothesis 对一系列迁移学习任务进行研究，通过使用无结构量级剪枝来发现最优子网络，实验结果表明减少约 90-95% 权重的稀疏子网络在多个现实场景下能够达到或超过原始网络的准确度。

May, 2019