在线持续学习中的动量知识蒸馏的重新思考
使用连续优化设计的新的知识蒸馏方法 Continuation-KD 能够更好地解决现有方法的问题,取得自然语言理解和计算机视觉任务中最优性能。
Dec, 2022
本文提出了一个新的问题 ——Memory-Constrained Online Continual Learning (MC-OCL),我们通过 Batch-level Distillation(BLD)这种基于正则化的 CL 方法来解决这个问题,并在三个公开的基准测试中证明了我们的方法成功地解决了 MC-OCL 问题,同时实现了与需要更高存储开销的先前 distillation 方法相当的准确性。
Aug, 2020
本文提出了一种用于在线连续学习问题的简单算法,该算法采用 kNN 分类器和通用预先训练的特征提取器,可以在小的计算预算下紧凑存储和利用整个数据流,既能减少过往数据的灾难性遗忘,同时也能快速适应快速变化的数据流,同时在 Continual LOCalization (CLOC) 和 Continual Google Landmarks V2 (CGLM) 两个大规模 OCL 数据集上取得了最新的技术水平。
May, 2023
在线连续学习中引入多层在线顺序专家 (Multi-level Online Sequential Experts, MOSE) 方法,通过多层监督和反向自蒸馏,培养模型为堆叠子专家,以实现学习新样本和保留过去知识的显著效果,大大提升 OCL 性能。
Mar, 2024
在这篇论文中,我们介绍了一个新的问题,在持续学习领域中称为 “在线持续知识学习(OCKL)”。我们提出了一个新的基准和评估指标,旨在测量新知识获取的速度和先前学到的知识的保留率。通过使用各种最先进的方法进行的实证评估为 OCKL 建立了稳健的基准。我们的结果显示,现有的持续学习方法对于应对 OCKL 提出的独特挑战不足够。我们确定了影响知识获取和保留之间权衡的关键因素,从而推进了我们对如何在不断演化的环境中训练 LLMs 的理解。
Nov, 2023
本篇研究探讨了如何通过知识蒸馏技术,减少重新训练模型所需时间和计算成本,实验结果表明,在保证准确率的前提下,通过蒸馏前一次迭代的模型来优化后续的模型,是一种可行的对模型训练耗时和费用成本的优化方法。
Mar, 2023
本文提出了 Switchable Online Knowledge Distillation (SwitOKD) 模型,通过在训练阶段通过专家模式(暂停教师)和学习模式(重新启动教师)之间进行自适应切换策略以校准蒸馏差距以提高学生的性能,并且将 SwitOKD 模型扩展到多个网络。
Sep, 2022