Aug, 2023

动态稀疏训练下的持续学习:探索有效模型更新算法

TL;DR连续学习是指智能系统在尽可能少的计算开销下,从数据流中顺序获取和保留知识的能力。本研究通过对 Dynamic Sparse Training (DST) 的不同组成部分在连续学习范式下的影响进行了首次实证研究,以填补重要的研究空白并为连续学习中 DST 的最佳配置提供清晰的指导。通过在著名的 CIFAR100 和 miniImageNet 基准测试数据集上进行全面的研究,研究人员发现在低稀疏度水平下,Erdos-Renyi Kernel (ERK) 初始化能更有效地利用主干网络并实现任务增量的有效学习,而在高稀疏度水平下,均匀初始化展现出更可靠和稳健的性能。对于增长策略,性能取决于定义的初始化策略和稀疏度程度。最后,DST 组成部分内的适应性是提升连续学习效果的有希望的方法。