当 BERT 玩彩票时,每张彩票都是获胜的
本文采用彩票票据假说来研究预训练的 BERT 模型是否存在可训练的、可转移的子网络,发现在一些任务上存在符合条件的子网络,这些子网络在初始化时即可被找到,其中在与预训练任务相同的任务上找到的子网络具有普适的迁移性,而在其他任务上找到的子网络则具有有限的迁移性。
Jul, 2020
本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能,探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用,发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。
Apr, 2022
本文基于 Lottery Ticket Hypothesis 对一系列迁移学习任务进行研究,通过使用无结构量级剪枝来发现最优子网络,实验结果表明减少约 90-95% 权重的稀疏子网络在多个现实场景下能够达到或超过原始网络的准确度。
May, 2019
利用稀疏 Transformer 进行神经机器翻译可以保证 BLEU 分数,但通过剪枝会影响模型的学习表征,随着剪枝过程中低振幅权重的削减,语义信息的复杂性首先降低,同时在保持注意力机制的一致性的情况下,稀疏模型的早期层开始了更多的编码。
Sep, 2020
本文提出彩票票据假说,展示了深度神经网络中存在的可训练子网络,这些子网络在相同的训练步骤下表现不亚于原始模型。研究表明存在某些子网络能够更快地收敛,我们的实验表明这些子网络在各种模型结构和超参数的限制条件下的一致存在性,此外,这些子网络能够在对抗性训练中将总时间缩短至最新技术的 49%。
Mar, 2020
该文在进行神经网络剪枝过程中提出了 “彩票票假设”,即在一个密集、随机初始化的前馈神经网络中存在一些幸运的子网络,当其被隔离地训练时,可以在相似的迭代次数内达到与原始网络相当的测试准确性,通过一系列实验验证了该假设的正确性和这些幸运初始化的重要性。
Mar, 2018
该研究提出彩票票据假设,证明对于每个有界分布以及带有有界权重的目标网络,一个具有随机权重的足够超参数的神经网络包含一个子网络,与目标网络具有大致相同的准确性,而不需要进一步的训练。
Feb, 2020
本研究证实了 Lottery Ticket Hypothesis 可适用于 deep generative models 并提出了一种寻找 winning tickets 的有效方法,同时发现这些 winning tickets 有跨模型的传递性,因此可以帮助训练多种深度生成模型,并通过 early-bird tickets 的方式可以大幅减少训练时间和 FLOPs。
Oct, 2020
本篇论文提出了 EarlyBERT,这是一种通用的计算高效的训练算法,可用于大规模语言模型的预训练和微调,通过对自注意和全连接子层进行精简,第一次在 BERT 训练的早期阶段中发现了结构优质的 winning tickets,实验结果表明,与标准 BERT 相比,EarlyBERT 能够在 35-45%的训练时间内实现相当的性能。
Dec, 2020