在线持续学习中的动量知识蒸馏的重新思考

Sep, 2023

在线持续学习中的动量知识蒸馏的重新思考

Rethinking Momentum Knowledge Distillation in Online Continual Learning

Nicolas Michel, Maorong Wang, Ling Xiao, Toshihiko Yamasaki

TL;DR应用动量知识蒸馏（MKD）来加强在线连续学习（OCL）方法，提高现有成果的准确度，将 MKD 视为 OCL 的核心组成部分。

Abstract

online continual learning (OCL) addresses the problem of training neural networks on a continuous data stream where multiple classification tasks emerge in sequence. In contrast to offline Continual Learning, data can be seen only once in OCL. In this context, →

online continual learning replay-based strategies knowledge distillation momentum knowledge distillation ocl methods

发现论文，激发创造

Continuation KD: 基于连续优化的知识蒸馏改进

使用连续优化设计的新的知识蒸馏方法 Continuation-KD 能够更好地解决现有方法的问题，取得自然语言理解和计算机视觉任务中最优性能。

Dec, 2022

极限内存约束下的在线连续学习

本文提出了一个新的问题 ——Memory-Constrained Online Continual Learning (MC-OCL)，我们通过 Batch-level Distillation（BLD）这种基于正则化的 CL 方法来解决这个问题，并在三个公开的基准测试中证明了我们的方法成功地解决了 MC-OCL 问题，同时实现了与需要更高存储开销的先前 distillation 方法相当的准确性。

Aug, 2020

在线对比学习的知识蒸馏在视觉识别中的应用

论文提出了一种互惠对比学习（MCL）框架来进行基于网络的集成学习，可以提高模型的特征表达能力，从而提高视觉识别任务的性能。

Jul, 2022

稠密提取累积知识用于连续学习

连续学习面临的致命遗忘问题可以通过稠密知识蒸馏方法得到改善，该方法可以在所有任务间蒸馏累积知识，提高模型的稳定性。

May, 2024

无存储约束的在线持续学习

本文提出了一种用于在线连续学习问题的简单算法，该算法采用 kNN 分类器和通用预先训练的特征提取器，可以在小的计算预算下紧凑存储和利用整个数据流，既能减少过往数据的灾难性遗忘，同时也能快速适应快速变化的数据流，同时在 Continual LOCalization (CLOC) 和 Continual Google Landmarks V2 (CGLM) 两个大规模 OCL 数据集上取得了最新的技术水平。

May, 2023

克服在线连续学习中的领域漂移

本文提出了一种名为 Drift-Reducing Rehearsal (DRR) 的新型排练策略，以减轻连续领域漂移并在在线持续学习中实现最先进的性能。

May, 2024

编排潜在专业知识：通过多级监督和反向自蒸馏推进在线持续学习

在线连续学习中引入多层在线顺序专家 (Multi-level Online Sequential Experts, MOSE) 方法，通过多层监督和反向自蒸馏，培养模型为堆叠子专家，以实现学习新样本和保留过去知识的显著效果，大大提升 OCL 性能。

Mar, 2024

在线连续知识学习的语言模型

在这篇论文中，我们介绍了一个新的问题，在持续学习领域中称为 “在线持续知识学习（OCKL）”。我们提出了一个新的基准和评估指标，旨在测量新知识获取的速度和先前学到的知识的保留率。通过使用各种最先进的方法进行的实证评估为 OCKL 建立了稳健的基准。我们的结果显示，现有的持续学习方法对于应对 OCKL 提出的独特挑战不足够。我们确定了影响知识获取和保留之间权衡的关键因素，从而推进了我们对如何在不断演化的环境中训练 LLMs 的理解。

Nov, 2023

高效训练序列的知识蒸馏

本篇研究探讨了如何通过知识蒸馏技术，减少重新训练模型所需时间和计算成本，实验结果表明，在保证准确率的前提下，通过蒸馏前一次迭代的模型来优化后续的模型，是一种可行的对模型训练耗时和费用成本的优化方法。

Mar, 2023

可切换的在线知识蒸馏

本文提出了 Switchable Online Knowledge Distillation (SwitOKD) 模型，通过在训练阶段通过专家模式（暂停教师）和学习模式（重新启动教师）之间进行自适应切换策略以校准蒸馏差距以提高学生的性能，并且将 SwitOKD 模型扩展到多个网络。

Sep, 2022