批量模型整合:多任务模型整合框架
本文研究了基于任务增量分类的持续学习方法,提出了一种新的框架来确定持续学习者的稳定性与可塑性的权衡, 并通过三个基准测试以及综合实验比较了11种持续学习方法和4种基线的方法的强弱和影响。
Sep, 2019
本文提出了一种简单但有效的方法来实现深度学习的连续增量学习,该方法结合了深层模型压缩、关键权重选择和渐进网络扩展的原理,在迭代中实现它们的集成,从而能够实现多种任务的增量学习,避免遗忘并保持模型的紧凑性。在实验中,该方法能够在不遗忘前面任务的情况下,增量学习处理多个任务的深度模型,同时对于单个任务的训练也具有更好的性能表现。
Oct, 2019
引言一个新的叫做 Continual Learning with Adaptive Weights (CLAW) 的做法,基于概率建模和变分推理来解决深度学习中连续学习的问题。实验表明,在分类准确率和解决 Catastrophic Forgetting 两个方面,CLAW 在六个项目中均取得了最先进的表现。
Nov, 2019
本研究探讨大规模预训练模型在下游持续学习场景中的作用,发现使用非参分类器可以在低计算开销下达到合理的CL性能;解释了更广泛数据预训练模型的表现,探讨了它们的表征相似性和迁移属性;展示了自监督预训练在下游领域上的有效性,和提高潜在CL效果的方向。
Apr, 2022
提出了Task Agnostic Representation Consolidation (TARC),一种用于连续学习的两阶段训练范式,将自监督训练和有监督学习交织在一起,旨在解决深度神经网络(DNNs)中的遗忘问题。实验证明,该训练法可以轻松地添加到基于记忆或基于正则化的方法中,并为更具挑战性的CL设置提供一致的性能提升,同时实现更稳健和良好校准的模型。
Jul, 2022
本文研究了当计算资源受限时传统的Continual Learning方法的效率,并表明它们对于实际部署来说太过计算密集,推荐使用在存储器上均匀抽样作为最初基线。
Mar, 2023
连续学习是指智能系统在尽可能少的计算开销下,从数据流中顺序获取和保留知识的能力。本研究通过对Dynamic Sparse Training (DST)的不同组成部分在连续学习范式下的影响进行了首次实证研究,以填补重要的研究空白并为连续学习中DST的最佳配置提供清晰的指导。通过在著名的CIFAR100和miniImageNet基准测试数据集上进行全面的研究,研究人员发现在低稀疏度水平下,Erdos-Renyi Kernel (ERK)初始化能更有效地利用主干网络并实现任务增量的有效学习,而在高稀疏度水平下,均匀初始化展现出更可靠和稳健的性能。对于增长策略,性能取决于定义的初始化策略和稀疏度程度。最后,DST组成部分内的适应性是提升连续学习效果的有希望的方法。
Aug, 2023
通过在自我监督预训练中应用分层分解(HiDe-Prompt)的创新方法,通过一系列特定任务的提示和无指导和有指导表示的统计数据的协调,以及对比正则化策略,我们展示了HiDe-Prompt在持续学习中的优越性能和对预训练范式的鲁棒性。
Oct, 2023
本文研究了指令调整在持续学习大型多模型 (LMMs) 中的应用,并发现持续调整过程中仍然存在灾难性遗忘现象,但多任务联合指令调整可以改善遗忘问题,此外,基于任务相似性的正则化和模型扩展方法在持续学习中表现良好。
Nov, 2023
本研究解决了超参数模型在多任务学习和持续学习中的理论理解不足的问题。我们通过对过参数线性模型的研究,揭示了模型规模、数据集规模和任务相似性等因素对模型性能的影响,并探讨了重放机制在持续学习中的作用。研究结果为实际设计多任务和持续学习模型提供了重要的理论指导。
Aug, 2024