视觉和语言中的抽奖券玩法
本文采用彩票票据假说来研究预训练的 BERT 模型是否存在可训练的、可转移的子网络,发现在一些任务上存在符合条件的子网络,这些子网络在初始化时即可被找到,其中在与预训练任务相同的任务上找到的子网络具有普适的迁移性,而在其他任务上找到的子网络则具有有限的迁移性。
Jul, 2020
本文提出了一种数据级彩票假设(Data-LTH-ViT),旨在寻找将 Vision Transformers 训练到与使用所有图像补丁训练模型相似准确度的可行子集。结果表明,使用获胜彩票的模型与随机选择子集的模型的性能存在明显差异,并且该理论具有与传统 LTH 相似之处。
Nov, 2022
本研究提出了一种 “双赢彩票模型”,在同时具有标准训练和对抗训练的下游任务中, 可独立转移预训练模型的定位子网络,以达到与完整预训练模型相同的标准和强健的识别泛化效果。然后,本研究探讨了各种预先训练机制,发现强健的预先训练倾向于制作更稀疏的双赢彩票模型,并且相较于标准机制,在实际数据有限的情况下会更加高效。
Jun, 2022
本论文提出 Dual Lottery Ticket Hypothesis 和 Random Sparse Network Transformation 实现稀疏神经网络训练,并通过实验证明了其有效性。
Mar, 2022
文章探讨了深度学习神经网络中 Lottery Ticket Hypothesis(LTH)方法对于物体识别、实例分割和关键点预测任务的模型剪枝效果,结果表明通过该方法找到的初始模型可以在不影响性能的情况下达到 80% 的稀疏度。
Dec, 2020
本研究探讨基于经典的 ImageNet 有监督预处理和新兴的自监督预处理方法,如 simCLR 和 MoCo 的预训练模型,通过 LTH 找到高度稀疏的匹配子网络,并验证其在多个下游任务的可迁移性,结果表明,在 59.04%至 96.48%的稀疏度下,这些匹配子网络的性能与完整的预训练模型相比没有降低。
Dec, 2020
本文通过对 BERT 子网络的研究发现直接优化子网络结构能更好地保留预训练性能,探究了幸运彩票假设、幅度剪枝和二值掩码训练等方法在 BERT 子网络中的应用,发现二值掩码训练方法在寻找改进 BERT 子网络性能方面更加有效。
Apr, 2022
本文提出彩票票据假说,展示了深度神经网络中存在的可训练子网络,这些子网络在相同的训练步骤下表现不亚于原始模型。研究表明存在某些子网络能够更快地收敛,我们的实验表明这些子网络在各种模型结构和超参数的限制条件下的一致存在性,此外,这些子网络能够在对抗性训练中将总时间缩短至最新技术的 49%。
Mar, 2020
本文从彩票猜想的角度探究了大型基于 Transformer 的模型可以通过剪枝获得可比拟完整模型性能的子网络。使用结构剪枝和数量剪枝对 Fine-tuned BERT 进行实验,发现即使是最差的子网络也表现良好,表明预训练 BERT 的大多数权重可能都是有用的。
May, 2020
该论文评估了 'lottery ticket' 初始化方法在自然语言处理和强化学习领域中的应用,研究发现该方法可以大大提高深度神经网络的性能和压缩效果。
Jun, 2019