稀疏训练中是否需要密集过参数化?时时过参数化
介绍了一种新的动态稀疏重参数化方法,能够更有效地训练深度卷积神经网络,在固定的参数预算下达到最佳准确率,并发现在训练过程中探索结构自由度比增加额外的参数对网络性能的提升更为有效。
Feb, 2019
本文提出了一种可以在单次训练中固定参数数量的内在稀疏 RNNs 训练方法,利用非均匀分配细胞门的方法实现更好的正则化,并通过一种新型的平均随机梯度优化器 SNT-ASGD 提高了训练性能,在 Penn TreeBank 和 Wikitext-2 数据集上实现了优于 dense-to-sparse 方法的最新稀疏训练结果。
Jan, 2021
本文提出了基于动态稀疏训练的稀疏连接性搜索问题的开发和探索获取函数,旨在使稀疏训练达到更高的准确性和更高的稀疏度,实验结果表明,相较于目前最先进的稀疏训练方法,在多项深度学习任务中,本文所提出的方法额外具有更高的准确性。
Nov, 2022
本文提出了一种名为 Top-KAST 的方法,在训练时保持网络的稀疏性,避免了传统方法在训练时必须实例化 dense 参数或梯度的缺点,实验结果表明,该方法在 ImageNet 基准测试中表现出色,在语言建模领域也有广阔的应用前景。此外,该方法实现简单,易于在现有的机器学习框架中实现,为探索海量模型的潜力提供了可能。
Jun, 2021
通过引入一种基于单一超参数的稀疏 Iso-FLOP 变换族,本文试图使用稀疏性提高密集模型的准确性和 FLOP 效率,实现不更改任何训练超参数而在计算机视觉和自然语言处理任务中获得显著的提高,例如 ResNet-18 在 ImageNet 上提高了 3.5%,GPT-3 Small on WikiText-103 下降了 0.4 个 PPL,并在不增加 FLOPs 的前提下,与使用 2 倍或更多 FLOPs 的大型密集模型变体相匹配。
Mar, 2023
本文提出两种新颖的在对抗训练期间注入适当稀疏形式的方法,即:通过利用最近的彩票假设的结果识别早期训练中出现的关键稀疏子网络来实现静态稀疏,以及通过在训练期间使稀疏子网络自适应调整其连接模式(同时保持相同的稀疏比率)来实现动态稀疏,并发现这两种新方法都可以显著缩减稳健泛化差距和减轻过度拟合,同时大大减少训练和推理的 FLOPs,实验证明此方法在各种数据集上有着显著作用,包括 CIFAR-10/100 和 Tiny-ImageNet。
Feb, 2022
本文提出了一种基于反射尺度微分包含的新方法,该方法通过耦合一对参数在动力学过程中生成从简单到复杂的模型系列,同时探索过度参数化的深度模型和其结构稀疏性。实验证据表明,我们的方法在探索几个广泛使用的支撑点上的稀疏结构方面表现出与竞争优化器可比甚至更好的性能。值得注意的是,我们的方法能够在早期阶段揭示 “获胜的票据”,即具有与完全训练的超参数化模型相当的测试精度的有效稀疏网络结构,这些模型可以进一步迁移到类似的替代任务中。此外,我们的方法能够高效地使用自适应过滤器配置来有效地增加网络,展示出更少的计算成本。
May, 2019
连续学习是指智能系统在尽可能少的计算开销下,从数据流中顺序获取和保留知识的能力。本研究通过对 Dynamic Sparse Training (DST) 的不同组成部分在连续学习范式下的影响进行了首次实证研究,以填补重要的研究空白并为连续学习中 DST 的最佳配置提供清晰的指导。通过在著名的 CIFAR100 和 miniImageNet 基准测试数据集上进行全面的研究,研究人员发现在低稀疏度水平下,Erdos-Renyi Kernel (ERK) 初始化能更有效地利用主干网络并实现任务增量的有效学习,而在高稀疏度水平下,均匀初始化展现出更可靠和稳健的性能。对于增长策略,性能取决于定义的初始化策略和稀疏度程度。最后,DST 组成部分内的适应性是提升连续学习效果的有希望的方法。
Aug, 2023
介绍了一种新的 DCT 加稀疏层架构,即使只剩下 0.01%可训练的核参数,也能保持信息传递和可训练性;同时,此种新架构用於精简网络在初始化後的训练可达到极端稀疏度时的最高准确性。
Feb, 2021