基于密度分布的在线持续学习挑战解决学习框架
近期的数据驱动任务导向对话系统在增量学习方面存在计算约束和耗时的问题,而连续学习试图通过避免密集的预训练来解决此问题,但它面临的问题是灾难性遗忘。本文提出了 Dirichlet 连续学习(DCL),这是一种新颖的基于生成的排练策略,用于连续学习。与传统上在条件变分自编码器(CVAE)中使用的高斯潜变量不同,DCL 利用 Dirichlet 分布的灵活性和多功能性来建模潜在先验变量。这使得它能够有效地捕捉先前任务的句子级特征并有效地指导伪样本的生成。此外,我们介绍了 Jensen-Shannon 知识蒸馏(JSKD),一种强大的基于逻辑的知识蒸馏方法,在伪样本生成期间增强了知识传递。我们的实验证实了我们方法在意图检测和槽填充任务上的有效性,并且胜过了最先进的方法。
Sep, 2023
本文提出了一个新的问题 ——Memory-Constrained Online Continual Learning (MC-OCL),我们通过 Batch-level Distillation(BLD)这种基于正则化的 CL 方法来解决这个问题,并在三个公开的基准测试中证明了我们的方法成功地解决了 MC-OCL 问题,同时实现了与需要更高存储开销的先前 distillation 方法相当的准确性。
Aug, 2020
该研究提出了一个统一框架来解决连续学习中的灾难性遗忘问题,并引入了一种创新的概念 —— 刷新学习,通过重新学习当前数据来提高学习性能,在连续学习基准测试和理论分析中取得了有效的结果。
Mar, 2024
该研究针对稳定数据的连续学习模型,提出了一种混合高斯模型的端到端融合方法,并在内部空间进行联合优化和调整,同时证明了该模型在基于图像分类问题上的竞争力。
Jul, 2023
深度神经网络在真实世界中经常面临着分布漂移、各种类型的噪声和概念目标的变化。本文提出了一个适应连续学习数据分布漂移的框架,通过贝叶斯推断中的不确定性量化来缓解灾难性遗忘问题。通过优化一个闭式 ELBO 目标,通过传播分布的前两个矩阵(均值和协方差)来近似预测分布,我们将灾难性遗忘问题降至最低。
Aug, 2023
连续学习是指智能系统在尽可能少的计算开销下,从数据流中顺序获取和保留知识的能力。本研究通过对 Dynamic Sparse Training (DST) 的不同组成部分在连续学习范式下的影响进行了首次实证研究,以填补重要的研究空白并为连续学习中 DST 的最佳配置提供清晰的指导。通过在著名的 CIFAR100 和 miniImageNet 基准测试数据集上进行全面的研究,研究人员发现在低稀疏度水平下,Erdos-Renyi Kernel (ERK) 初始化能更有效地利用主干网络并实现任务增量的有效学习,而在高稀疏度水平下,均匀初始化展现出更可靠和稳健的性能。对于增长策略,性能取决于定义的初始化策略和稀疏度程度。最后,DST 组成部分内的适应性是提升连续学习效果的有希望的方法。
Aug, 2023
本文提出了一种用于在线连续学习问题的简单算法,该算法采用 kNN 分类器和通用预先训练的特征提取器,可以在小的计算预算下紧凑存储和利用整个数据流,既能减少过往数据的灾难性遗忘,同时也能快速适应快速变化的数据流,同时在 Continual LOCalization (CLOC) 和 Continual Google Landmarks V2 (CGLM) 两个大规模 OCL 数据集上取得了最新的技术水平。
May, 2023
提出一种名为基于数据分布的课程学习(DDCL)的新型课程学习方法,通过评分方法确定训练样本的顺序,实验证明 DDCL 方法相对于无课程的标准评估,对多个数据集应用时,改善了平均分类准确率,并且通过错误损失分析表明,在单个训练时期,使用 DDCL 方法比无课程方法收敛更快。
Feb, 2024