连续预训练中灾难性遗忘现象对于已经经过微调的大规模语言模型的影响及重复问题的挑战。
Jan, 2024
通过调查现有的方法及其在预训练模型上的表现,我们观察到 Generic Pre-training 方法隐含地减轻了多任务学习中遗忘现象的影响,因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象,基于这个发现,我们建议联合当前任务的损失和损失基底锐度的优化方法,以在顺序微调期间显式地鼓励更宽的基底,在多种设置中实现与最新技术的性能相当的顺序连续学习,而无需保留随任务数缩放的内存。
Dec, 2021
本文提出了一种简明有效的使用预训练模型进行 CL 的方法,它采用无需训练的随机投影仪和类原型累积技术,可避免遗忘问题,并且证明了与以前的方法相比,在不使用回访记忆的情况下,对于多个基准数据集,减少了最终错误率。
Jul, 2023
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了 LLMs 在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
本文是对基于预训练模型的持续学习最新进展的综合调查,将现有方法分为三组进行分类,提供了它们的相似性、差异性、以及各自的优缺点的比较分析,并通过实证研究对比了各种最先进的方法,以凸显比较中公平性方面的关注点。
本论文主要研究使用自监督预训练在图像分类任务上进行在线渐进学习的方法,发现相较于有监督的预训练,利用自监督预训练可以得到更好的特征表征,且采样数量较少时优势更为明显。在三种在线渐进学习算法中,自监督预训练在 ImageNet 数据集上取得了较有竞争力的实验效果,相对于之前的基于在线渐进学习的图像分类方法有了较大的提升。
Mar, 2021
使用大型语言模型和图像生成模型结合起来,在持续学习挑战过程中提供有价值的先见之明,并对细粒度图像分类基准测试上的多个类别增量学习方法进行了改进。
Mar, 2024
持续预训练是适应大型语言模型(LLM)到新领域的主要方法之一,研究探讨了在这个过程中 LLM 的行为和性能,提出了三种有效策略来增强 LLM 在固定计算资源下的性能,经实验证实这些策略在医学任务性能和通用任务性能方面均取得了令人满意的成果。
Jun, 2024
通过使用预训练的方法,我们提出了一个通用的框架来持续学习连续到达的任务,从一个理论的角度,我们将其目标分解为三个层次的组成部分,包括任务内预测、任务标识推断和任务适应预测,并提出了一种创新的方法来显式优化这些组件,通过参数高效的微调技术和表示统计量,我们在下游连续学习中实证展示了我们方法的优越性和普遍性,并进一步探讨了在上游连续学习中应用参数高效的微调技术的可行性,同时结合神经科学中的最新进展,讨论了所提框架的生物学基础。
Oct, 2023
通过自我监督预训练不断学习的大型语言模型,可以在多个数据集上持续学习并保持先前任务的良好性能,同时展示新的组合方式。
May, 2022