EsaCL:高效学习稀疏模型
本文提出了一种名为 Sparse Continual Learning(SparCL)的新框架,通过权重稀疏性、数据效率和梯度稀疏性的协同作用来实现训练加速和准确性保持,并且在资源受限的环境下,基于稀疏性的连续学习可以实现成本效益。
Sep, 2022
连续学习是指智能系统在尽可能少的计算开销下,从数据流中顺序获取和保留知识的能力。本研究通过对 Dynamic Sparse Training (DST) 的不同组成部分在连续学习范式下的影响进行了首次实证研究,以填补重要的研究空白并为连续学习中 DST 的最佳配置提供清晰的指导。通过在著名的 CIFAR100 和 miniImageNet 基准测试数据集上进行全面的研究,研究人员发现在低稀疏度水平下,Erdos-Renyi Kernel (ERK) 初始化能更有效地利用主干网络并实现任务增量的有效学习,而在高稀疏度水平下,均匀初始化展现出更可靠和稳健的性能。对于增长策略,性能取决于定义的初始化策略和稀疏度程度。最后,DST 组成部分内的适应性是提升连续学习效果的有希望的方法。
Aug, 2023
本篇研究提出了一种名为 CLNP 的方法,通过神经模型稀疏化实现模型固定容量下的全生命周期学习,在这种方法中,使用经过稀疏化网络中的非活动神经元和滤波器来训练后续任务,并对以前任务的性能不会造成任何恶化,此外,CLNP 还提供了简单的学习诊断工具。实验证明,与当前基于权重弹性的方法相比,CLNP 能够显著提高结果。
Mar, 2019
本文研究了在环境改变时如何使模型具有可持续发展能力,在理论层面上证明了增量学习的可行性,并提出了一种新的模型架构 ——Cooperation of Small Continual Learners (CoSCL),该模型使用一组独立的子网络来学习所有的任务,有助于提高模型的泛化能力和记忆稳定性,并取得了新的最优性能。
Jul, 2022
在类增量学习场景中,利用可用模型容量提出 SpaceNet,该方法从头开始以自适应方式训练稀疏的深度神经网络,压缩每个任务的稀疏连接到较少的神经元,实现稀疏表示并降低任务之间的干扰。在多个 CL 基准测试中,SpaceNet 优于基于正则化的方法,并且比扩容的基于架构的方法性能更好,同时还实现了大幅度的内存缩减。
Jul, 2020
动态多目标优化问题中,在平衡新旧任务训练和减少负面影响方面,提出了一种名为弹性多梯度下降(EMGD)的方法,通过引入任务特定的弹性因子来调整下降方向,以最小化对先前学习任务的负面影响,并借助梯度计算引导的内存编辑机制来更新储存的数据点,从而降低之前任务对 Pareto 下降方向的干扰。
Jan, 2024
提出了一种名为自适应分组稀疏的持续学习的新型正则化方法,该方法利用两种基于稀疏性的罚项来更新节点的重要性,并使用接近梯度下降方法进行学习,以明确控制模型容量,实现对新任务的高效学习,并通过重置不重要节点的权重来避免负面转移引起的灾难性遗忘。
Mar, 2020
深度状态空间模型 (DSSM) 在动态系统建模方面的能力使其在近年来受到广泛关注。然而,现有 DSSM 方法仅适用于单任务建模,需要在重新访问之前的任务时使用历史任务数据进行重新训练。为了解决这个问题,我们提出了一种连续学习 DSSM (CLDSSM) 方法,它能够适应不断变化的任务而不会导致灾难性遗忘。我们的 CLDSSM 方法整合了主流的基于正则化的连续学习方法,确保以恒定的计算和内存成本对多个动态系统进行模型化的高效更新。我们还对各个连续学习方法应用于相应的 CLDSSM 进行了全面的成本分析,并通过在真实数据集上的实验证明了 CLDSSM 的有效性。结果证实,尽管各种竞争的连续学习方法各具特点,但所提出的 CLDSSM 在解决灾难性遗忘方面始终优于传统的 DSSM 方法,并能够实现对新任务的快速准确参数传递。
Mar, 2024
我们提出并研究了一种现实的连续学习(CL)设置,其中学习算法在训练过程中具有每个时间步的限制计算预算。我们将此设置应用于稀疏标签率的大规模半监督连续学习场景中。我们提出了一种简单但非常有效的基准方法 DietCL,该方法联合利用未标记数据和标记数据,巧妙地分配计算预算。在多个数据集上进行验证时,DietCL 在限制预算的情况下明显优于所有现有的有监督 CL 算法以及更近期的连续半监督方法。我们的广泛分析和消融实验证明,DietCL 在标签稀疏性、计算预算和其他各种消融条件下都是稳定的。
Apr, 2024