当 BERT 玩彩票时，每张彩票都是获胜的

EMNLPMay, 2020

当 BERT 玩彩票时，每张彩票都是获胜的

When BERT Plays the Lottery, All Tickets Are Winning

Sai Prasanna, Anna Rogers, Anna Rumshisky

TL;DR本文从彩票猜想的角度探究了大型基于 Transformer 的模型可以通过剪枝获得可比拟完整模型性能的子网络。使用结构剪枝和数量剪枝对 Fine-tuned BERT 进行实验，发现即使是最差的子网络也表现良好，表明预训练 BERT 的大多数权重可能都是有用的。

Abstract

Large transformer-based models were shown to be reducible to a smaller number of self-attention heads and layers. We consider this phenomenon from the perspective of the →

transformer-based models self-attention heads lottery ticket hypothesis structured pruning fine-tuned bert

发现论文，激发创造

预训练 BERT 网络的彩票票证假设

本文采用彩票票据假说来研究预训练的 BERT 模型是否存在可训练的、可转移的子网络，发现在一些任务上存在符合条件的子网络，这些子网络在初始化时即可被找到，其中在与预训练任务相同的任务上找到的子网络具有普适的迁移性，而在其他任务上找到的子网络则具有有限的迁移性。

Jul, 2020

通过任务无关的掩码训练在 BERT 转移上学习赢得彩票的方法

本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能，探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用，发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。

Apr, 2022

稀疏转移学习中的优胜彩票算法

本文基于 Lottery Ticket Hypothesis 对一系列迁移学习任务进行研究，通过使用无结构量级剪枝来发现最优子网络，实验结果表明减少约 90-95% 权重的稀疏子网络在多个现实场景下能够达到或超过原始网络的准确度。

May, 2019

分解彩票网络变形器：稀疏神经机器翻译的结构和行为研究

利用稀疏 Transformer 进行神经机器翻译可以保证 BLEU 分数，但通过剪枝会影响模型的学习表征，随着剪枝过程中低振幅权重的削减，语义信息的复杂性首先降低，同时在保持注意力机制的一致性的情况下，稀疏模型的早期层开始了更多的编码。

Sep, 2020

视觉和语言中的抽奖券玩法

本文通过实证研究发现，大规模的预训练 VL 模型中存在可训练的子网络，该子网络可通过精细修剪结构实现高精度计算并具有良好的通用性。

Apr, 2021

实用的彩票票假设在对抗训练中的应用

本文提出彩票票据假说，展示了深度神经网络中存在的可训练子网络，这些子网络在相同的训练步骤下表现不亚于原始模型。研究表明存在某些子网络能够更快地收敛，我们的实验表明这些子网络在各种模型结构和超参数的限制条件下的一致存在性，此外，这些子网络能够在对抗性训练中将总时间缩短至最新技术的 49％。

Mar, 2020

彩票假说：寻找稀疏的可训练神经网络

该文在进行神经网络剪枝过程中提出了 “彩票票假设”，即在一个密集、随机初始化的前馈神经网络中存在一些幸运的子网络，当其被隔离地训练时，可以在相似的迭代次数内达到与原始网络相当的测试准确性，通过一系列实验验证了该假设的正确性和这些幸运初始化的重要性。

Mar, 2018

证明《中奖彩票假说》: 剪枝就是你所需的一切

该研究提出彩票票据假设，证明对于每个有界分布以及带有有界权重的目标网络，一个具有随机权重的足够超参数的神经网络包含一个子网络，与目标网络具有大致相同的准确性，而不需要进一步的训练。

Feb, 2020

深度生成模型中的中奖彩票

本研究证实了 Lottery Ticket Hypothesis 可适用于 deep generative models 并提出了一种寻找 winning tickets 的有效方法，同时发现这些 winning tickets 有跨模型的传递性，因此可以帮助训练多种深度生成模型，并通过 early-bird tickets 的方式可以大幅减少训练时间和 FLOPs。

Oct, 2020

EarlyBERT: 早鸟抽奖票优化 BERT 训练

本篇论文提出了 EarlyBERT，这是一种通用的计算高效的训练算法，可用于大规模语言模型的预训练和微调，通过对自注意和全连接子层进行精简，第一次在 BERT 训练的早期阶段中发现了结构优质的 winning tickets，实验结果表明，与标准 BERT 相比，EarlyBERT 能够在 35-45％的训练时间内实现相当的性能。

Dec, 2020