基于正则化的深度状态空间模型中的高效持续学习

Mar, 2024

基于正则化的深度状态空间模型中的高效持续学习

Regularization-Based Efficient Continual Learning in Deep State-Space Models

Yuanhang Zhang, Zhidi Lin, Yiyong Sun, Feng Yin, Carsten Fritsche

TL;DR深度状态空间模型 (DSSM) 在动态系统建模方面的能力使其在近年来受到广泛关注。然而，现有 DSSM 方法仅适用于单任务建模，需要在重新访问之前的任务时使用历史任务数据进行重新训练。为了解决这个问题，我们提出了一种连续学习 DSSM (CLDSSM) 方法，它能够适应不断变化的任务而不会导致灾难性遗忘。我们的 CLDSSM 方法整合了主流的基于正则化的连续学习方法，确保以恒定的计算和内存成本对多个动态系统进行模型化的高效更新。我们还对各个连续学习方法应用于相应的 CLDSSM 进行了全面的成本分析，并通过在真实数据集上的实验证明了 CLDSSM 的有效性。结果证实，尽管各种竞争的连续学习方法各具特点，但所提出的 CLDSSM 在解决灾难性遗忘方面始终优于传统的 DSSM 方法，并能够实现对新任务的快速准确参数传递。

Abstract

deep state-space models (DSSMs) have gained popularity in recent years due to their potent modeling capacity for dynamic systems. However, existing DSSM works are limited to single-task modeling, which requires r

deep state-space models continual learning catastrophic forgetting regularization-based methods dynamic systems

发现论文，激发创造

动态稀疏训练下的持续学习：探索有效模型更新算法

连续学习是指智能系统在尽可能少的计算开销下，从数据流中顺序获取和保留知识的能力。本研究通过对 Dynamic Sparse Training (DST) 的不同组成部分在连续学习范式下的影响进行了首次实证研究，以填补重要的研究空白并为连续学习中 DST 的最佳配置提供清晰的指导。通过在著名的 CIFAR100 和 miniImageNet 基准测试数据集上进行全面的研究，研究人员发现在低稀疏度水平下，Erdos-Renyi Kernel (ERK) 初始化能更有效地利用主干网络并实现任务增量的有效学习，而在高稀疏度水平下，均匀初始化展现出更可靠和稳健的性能。对于增长策略，性能取决于定义的初始化策略和稀疏度程度。最后，DST 组成部分内的适应性是提升连续学习效果的有希望的方法。

Aug, 2023

通过对比插值一致性进行持续的半监督学习

本文探讨了基于少量标注数据的持续半监督学习问题，并设计了一种利用度量学习和一致性正则化的新方法，仅依赖 25% 的监督数据即可优于全监督训练下的 SOTA 方法。

Aug, 2021

SpaceNet: 为持续学习腾出自由空间

在类增量学习场景中，利用可用模型容量提出 SpaceNet，该方法从头开始以自适应方式训练稀疏的深度神经网络，压缩每个任务的稀疏连接到较少的神经元，实现稀疏表示并降低任务之间的干扰。在多个 CL 基准测试中，SpaceNet 优于基于正则化的方法，并且比扩容的基于架构的方法性能更好，同时还实现了大幅度的内存缩减。

Jul, 2020

基于狄利克雷生成的排练的持续学习

近期的数据驱动任务导向对话系统在增量学习方面存在计算约束和耗时的问题，而连续学习试图通过避免密集的预训练来解决此问题，但它面临的问题是灾难性遗忘。本文提出了 Dirichlet 连续学习（DCL），这是一种新颖的基于生成的排练策略，用于连续学习。与传统上在条件变分自编码器（CVAE）中使用的高斯潜变量不同，DCL 利用 Dirichlet 分布的灵活性和多功能性来建模潜在先验变量。这使得它能够有效地捕捉先前任务的句子级特征并有效地指导伪样本的生成。此外，我们介绍了 Jensen-Shannon 知识蒸馏（JSKD），一种强大的基于逻辑的知识蒸馏方法，在伪样本生成期间增强了知识传递。我们的实验证实了我们方法在意图检测和槽填充任务上的有效性，并且胜过了最先进的方法。

Sep, 2023

神经连续 - 离散状态空间模型用于不规则采样的时间序列

提出了神经连续 - 离散状态空间模型 (NCDSSM)，用于对时间序列进行连续时间建模。该模型使用辅助变量进行识别和动态分离，从而仅需要为辅助变量进行摊销推理。通过连续离散滤波理论，提出了三种灵活的潜在动态参数化方法和一种能够较快地进行后验推理的训练目标函数。实验结果表明，NCDSSM 在多个基准数据集上都比现有模型具有更好的插补和预测性能。

Jan, 2023

探究扩散模型的持续学习

本研究评估扩散模型的连续学习特性，通过给 Denoising Diffusion Probabilistic Models （DDPMs）应用经验重放，发现一定程度的遗忘可以被减少，但在扩散步数上，其表现多种多样。同时揭示使用 bits-per-dimension 指标评估 CL 时的某些问题。

Mar, 2023

学习记忆：一种突触可塑性驱动的连续学习框架

介绍了一种基于神经突触可塑性的动态生成记忆模型，该模型在连续学习中实时调整神经网络架构，应用于视觉分类任务中，旨在解决老知识保留和模型容量扩展的问题。

Apr, 2019

极限内存约束下的在线连续学习

本文提出了一个新的问题 ——Memory-Constrained Online Continual Learning (MC-OCL)，我们通过 Batch-level Distillation（BLD）这种基于正则化的 CL 方法来解决这个问题，并在三个公开的基准测试中证明了我们的方法成功地解决了 MC-OCL 问题，同时实现了与需要更高存储开销的先前 distillation 方法相当的准确性。

Aug, 2020

等变正则化在在线鲁棒持续学习中的有效性

本研究提出了一种在线持续学习方法 CLER，通过等变性预处理任务进行自我监督，避免了 CSSL 技术的局限性，并与现有 OCL 方法轻松集成。重点探讨了等变性预处理任务对网络信息流的影响以及其对持续学习动态的影响。

May, 2023

SparCL：边缘稀疏持续学习

本文提出了一种名为 Sparse Continual Learning（SparCL）的新框架，通过权重稀疏性、数据效率和梯度稀疏性的协同作用来实现训练加速和准确性保持，并且在资源受限的环境下，基于稀疏性的连续学习可以实现成本效益。

Sep, 2022