早鸟获得蠕虫:启发式加速早鸟收敛
该文在进行神经网络剪枝过程中提出了 “彩票票假设”,即在一个密集、随机初始化的前馈神经网络中存在一些幸运的子网络,当其被隔离地训练时,可以在相似的迭代次数内达到与原始网络相当的测试准确性,通过一系列实验验证了该假设的正确性和这些幸运初始化的重要性。
Mar, 2018
本文提出了一种发现神经网络的优胜子网络(winning tickets)的方法 ——early-bird tickets,可以利用低成本的训练方案(如早停训练和低精度训练)在较早的训练阶段发现,并通过提出的 mask distance 度量快速识别,最终实现了基于 early-bird tickets 的高效训练方法,可以在追求高精度的情况下实现高性能且更低能耗的深度神经网络训练,相关代码公开可用于链接中。
Sep, 2019
本文基于 Lottery Ticket Hypothesis 对一系列迁移学习任务进行研究,通过使用无结构量级剪枝来发现最优子网络,实验结果表明减少约 90-95% 权重的稀疏子网络在多个现实场景下能够达到或超过原始网络的准确度。
May, 2019
该研究使用彩票票据原理,提出了一种适用于深度脉冲神经网络(SNN)的神经剪枝技术,即运用早期时间(ET)票据来减少彩票票据原理的搜索时间,该方法在不降低性能的情况下使得 SNN 的鲁棒性得到了极大提高。
Jul, 2022
通过将 Lottery Ticket Hypothesis 应用于扩散模型,本研究首次在基准测试上发现了在稀疏度为 90%-99% 时仍能保持性能的子模型,并提出了一种可以在模型的不同层之间具有变化稀疏度的方法。
Oct, 2023
该研究介绍了一种名为 Iterative Weight Recycling 的算法,该算法可在初始化的神经网络中识别重要权重的子集以供重复使用,可以提高模型稀疏度,此外还支持了多奖励彩票票据假设的互补结果,即高精度,随机初始化的子网络产生多样的掩码,展现了高度的变异性。
Mar, 2023
本文提出彩票票据假说,展示了深度神经网络中存在的可训练子网络,这些子网络在相同的训练步骤下表现不亚于原始模型。研究表明存在某些子网络能够更快地收敛,我们的实验表明这些子网络在各种模型结构和超参数的限制条件下的一致存在性,此外,这些子网络能够在对抗性训练中将总时间缩短至最新技术的 49%。
Mar, 2020
本研究证实了 Lottery Ticket Hypothesis 可适用于 deep generative models 并提出了一种寻找 winning tickets 的有效方法,同时发现这些 winning tickets 有跨模型的传递性,因此可以帮助训练多种深度生成模型,并通过 early-bird tickets 的方式可以大幅减少训练时间和 FLOPs。
Oct, 2020
通过组合迭代剪枝、遮蔽距离计算和选择性重训练等方法,本研究调查并验证了早鸟票假设对 Transformer 模型训练效率的适用性。实验结果表明,在 Transformer 模型的训练或微调的前几个周期内,可以持续发现早鸟票,并且在显著减少资源占用的情况下,可以获得与未剪枝模型相媲美甚至更高的准确率。此外,对比分析突显了早鸟票现象在不同 Transformer 模型和任务中的普适性,为 Transformer 模型的高效训练策略的发展做出了贡献。通过利用早鸟票,从业者可以加速自然语言处理和计算机视觉应用的进展,同时减少 Transformer 模型训练的计算负担。
May, 2024
通过抽象算法(Lottery Ticket Hypothesis)从完美记忆到完美泛化的过渡阶段,找到网络参数权重的关键性指标,有效描述了学习模式的转变。
Oct, 2023