预训练语言模型的强大抽奖票
本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能,探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用,发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。
Apr, 2022
本研究提出了一种 “双赢彩票模型”,在同时具有标准训练和对抗训练的下游任务中, 可独立转移预训练模型的定位子网络,以达到与完整预训练模型相同的标准和强健的识别泛化效果。然后,本研究探讨了各种预先训练机制,发现强健的预先训练倾向于制作更稀疏的双赢彩票模型,并且相较于标准机制,在实际数据有限的情况下会更加高效。
Jun, 2022
本文提出彩票票据假说,展示了深度神经网络中存在的可训练子网络,这些子网络在相同的训练步骤下表现不亚于原始模型。研究表明存在某些子网络能够更快地收敛,我们的实验表明这些子网络在各种模型结构和超参数的限制条件下的一致存在性,此外,这些子网络能够在对抗性训练中将总时间缩短至最新技术的 49%。
Mar, 2020
本研究证实了 Lottery Ticket Hypothesis 可适用于 deep generative models 并提出了一种寻找 winning tickets 的有效方法,同时发现这些 winning tickets 有跨模型的传递性,因此可以帮助训练多种深度生成模型,并通过 early-bird tickets 的方式可以大幅减少训练时间和 FLOPs。
Oct, 2020
该论文评估了 'lottery ticket' 初始化方法在自然语言处理和强化学习领域中的应用,研究发现该方法可以大大提高深度神经网络的性能和压缩效果。
Jun, 2019
本文采用彩票票据假说来研究预训练的 BERT 模型是否存在可训练的、可转移的子网络,发现在一些任务上存在符合条件的子网络,这些子网络在初始化时即可被找到,其中在与预训练任务相同的任务上找到的子网络具有普适的迁移性,而在其他任务上找到的子网络则具有有限的迁移性。
Jul, 2020
该研究探讨了 Lottery Ticket Hypothesis 理论,在预训练语言模型这样极度超参数化的模型中,如何通过压缩 ratio 选定一组 “winning tickets” 子模型来匹配全模型的性能。另外观察到当 compression ratio 达到某个临界点时,性能会出现相位转变现象,我们称此时被删减对临界点最立竿见影的超票为 “super tickets”,实验证明它们对 BERT-base 和 BERT-large 的单任务微调平均得分分别有 0.9 和 1.0 的提升,多任务学习时的共享也取得了提升。
May, 2021
Lottery Ticket Adaptation (LoTA) is a sparse adaptation method for large language models that improves performance on multiple tasks by optimizing a sparse subnetwork, mitigating catastrophic forgetting.
Jun, 2024