动态稀疏训练下的持续学习：探索有效模型更新算法

Aug, 2023

动态稀疏训练下的持续学习：探索有效模型更新算法

Continual Learning with Dynamic Sparse Training: Exploring Algorithms for Effective Model Updates

Murat Onur Yildirim, Elif Ceren Gok Yildirim, Ghada Sokar, Decebal Constantin Mocanu, Joaquin Vanschoren

TL;DR连续学习是指智能系统在尽可能少的计算开销下，从数据流中顺序获取和保留知识的能力。本研究通过对 Dynamic Sparse Training (DST) 的不同组成部分在连续学习范式下的影响进行了首次实证研究，以填补重要的研究空白并为连续学习中 DST 的最佳配置提供清晰的指导。通过在著名的 CIFAR100 和 miniImageNet 基准测试数据集上进行全面的研究，研究人员发现在低稀疏度水平下，Erdos-Renyi Kernel (ERK) 初始化能更有效地利用主干网络并实现任务增量的有效学习，而在高稀疏度水平下，均匀初始化展现出更可靠和稳健的性能。对于增长策略，性能取决于定义的初始化策略和稀疏度程度。最后，DST 组成部分内的适应性是提升连续学习效果的有希望的方法。

Abstract

continual learning (CL) refers to the ability of an intelligent system to sequentially acquire and retain knowledge from a stream of data with as little computational overhead as possible. To this end; regularization, replay, architecture, and →

continual learning parameter isolation dynamic sparse training sparsity level adaptivity

发现论文，激发创造

SparCL：边缘稀疏持续学习

本文提出了一种名为 Sparse Continual Learning（SparCL）的新框架，通过权重稀疏性、数据效率和梯度稀疏性的协同作用来实现训练加速和准确性保持，并且在资源受限的环境下，基于稀疏性的连续学习可以实现成本效益。

Sep, 2022

EsaCL：高效学习稀疏模型

提出了一种用于高效学习稀疏模型的新方法，该方法能够自动修剪冗余参数而不降低模型的预测能力，并且避免了重新训练的需要。通过理论分析和设计的修剪和数据选择策略，实验结果表明该方法在减少存储和计算资源的同时，能够在连续学习任务上达到与现有方法相媲美的性能。

Jan, 2024

基于正则化的深度状态空间模型中的高效持续学习

深度状态空间模型 (DSSM) 在动态系统建模方面的能力使其在近年来受到广泛关注。然而，现有 DSSM 方法仅适用于单任务建模，需要在重新访问之前的任务时使用历史任务数据进行重新训练。为了解决这个问题，我们提出了一种连续学习 DSSM (CLDSSM) 方法，它能够适应不断变化的任务而不会导致灾难性遗忘。我们的 CLDSSM 方法整合了主流的基于正则化的连续学习方法，确保以恒定的计算和内存成本对多个动态系统进行模型化的高效更新。我们还对各个连续学习方法应用于相应的 CLDSSM 进行了全面的成本分析，并通过在真实数据集上的实验证明了 CLDSSM 的有效性。结果证实，尽管各种竞争的连续学习方法各具特点，但所提出的 CLDSSM 在解决灾难性遗忘方面始终优于传统的 DSSM 方法，并能够实现对新任务的快速准确参数传递。

Mar, 2024

SpaceNet: 为持续学习腾出自由空间

在类增量学习场景中，利用可用模型容量提出 SpaceNet，该方法从头开始以自适应方式训练稀疏的深度神经网络，压缩每个任务的稀疏连接到较少的神经元，实现稀疏表示并降低任务之间的干扰。在多个 CL 基准测试中，SpaceNet 优于基于正则化的方法，并且比扩容的基于架构的方法性能更好，同时还实现了大幅度的内存缩减。

Jul, 2020

基于狄利克雷生成的排练的持续学习

近期的数据驱动任务导向对话系统在增量学习方面存在计算约束和耗时的问题，而连续学习试图通过避免密集的预训练来解决此问题，但它面临的问题是灾难性遗忘。本文提出了 Dirichlet 连续学习（DCL），这是一种新颖的基于生成的排练策略，用于连续学习。与传统上在条件变分自编码器（CVAE）中使用的高斯潜变量不同，DCL 利用 Dirichlet 分布的灵活性和多功能性来建模潜在先验变量。这使得它能够有效地捕捉先前任务的句子级特征并有效地指导伪样本的生成。此外，我们介绍了 Jensen-Shannon 知识蒸馏（JSKD），一种强大的基于逻辑的知识蒸馏方法，在伪样本生成期间增强了知识传递。我们的实验证实了我们方法在意图检测和槽填充任务上的有效性，并且胜过了最先进的方法。

Sep, 2023

在有限计算资源下学习来自稀疏标注数据流的连续学习

我们提出并研究了一种现实的连续学习（CL）设置，其中学习算法在训练过程中具有每个时间步的限制计算预算。我们将此设置应用于稀疏标签率的大规模半监督连续学习场景中。我们提出了一种简单但非常有效的基准方法 DietCL，该方法联合利用未标记数据和标记数据，巧妙地分配计算预算。在多个数据集上进行验证时，DietCL 在限制预算的情况下明显优于所有现有的有监督 CL 算法以及更近期的连续半监督方法。我们的广泛分析和消融实验证明，DietCL 在标签稀疏性、计算预算和其他各种消融条件下都是稳定的。

Apr, 2024

动态稀疏是通道级稀疏的学习器

本文提出 Channel-aware dynamic sparse (Chase) 方法：将 unstructured dynamic sparsity 转变为 GPU-friendly channel-level sparsity 加速 inference，通过逐渐去除 biased parameter reallocation across channels，不损失准确率地实现了 1.7 X inference throughput speedup on common GPU devices with ResNet-50 on ImageNet。

May, 2023

学习一种进化的混合模型用于任务自由的连续学习

本文提出了一种解决深度学习模型在没有显式任务信息的非定常数据流上进行持续学习的方法，即基于进化的混合模型，该模型的网络架构动态扩展以适应数据分布的变化，并引入了两个简单的丢弃机制来避免存储的例子过多导致记忆过载问题，实证结果表明，该方法在持续学习任务上取得了优异的性能。

Jul, 2022

神奇的权重及其搜索方法：如何在动态稀疏训练中进行裁剪

本论文主要研究动态稀疏训练中修剪准则的影响，发现在低密度环境下，最优性能主要取决于最简单的技术：基于大小的修剪。

Jun, 2023

在图序列上连续学习 -- 动力系统方法

本文提出了一种适应性动态规划的视角来处理图形的 Continual learning 问题，建立起一种学习新任务和记忆以前学习任务之间的两人博弈模型，并且通过在多个图形基准下的综合消融研究证明了其表现的最先进性。

May, 2023