基础模型的持续学习:潜在重放的经验研究
我们提出了 LayUP,这是一种基于类原型的持续学习方法,利用预训练网络的多个中间层的二阶特征统计。与最佳基准线相比,LayUP 在七种类增量学习设置中提高了四种,并且在内存和计算资源占用方面大大减少。我们的结果表明,充分利用预训练模型在持续学习中的表示能力远不止于最终嵌入。
Dec, 2023
本文提出了一种简明有效的使用预训练模型进行 CL 的方法,它采用无需训练的随机投影仪和类原型累积技术,可避免遗忘问题,并且证明了与以前的方法相比,在不使用回访记忆的情况下,对于多个基准数据集,减少了最终错误率。
Jul, 2023
本文提出了一种称为 “隐式回放” 的技术,该技术可以在边缘计算和嵌入式设备上有效地训练复杂的神经网络模型,并利用连续学习技术实现了较高的自适应性和自主性。我们的实验表明,结合现有的连续学习技术,隐式回放在复杂视频基准测试方面取得了最先进的性能,并且在智能手机上部署该技术可以实现几乎实时的连续学习。
Dec, 2019
最近,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了重要的成就。然而,由于灾难性遗忘的原因,它们仍然无法模拟类似人类的连续学习。为了解决这个问题,已经开发了各种基于连续学习(CL)的方法来改进 LMs,并使其能够适应新任务而不会遗忘以前的知识。然而,目前对现有方法的系统分类和性能比较仍然缺乏,这是我们调查的空白。我们对基础语言模型中应用的基于 CL 方法的现有文献进行了全面回顾、总结和分类,如预训练语言模型(PLMs)、大型语言模型(LLMs)和视觉语言模型(VLMs)。我们将这些研究分为离线 CL 和在线 CL,其中包括传统方法、基于参数效率的方法、基于指令调优的方法和连续预训练方法。离线 CL 包括领域增量学习、任务增量学习和类增量学习,而在线 CL 又分为困难任务边界和模糊任务边界设置。此外,我们概述了 CL 研究中使用的典型数据集和度量标准,并详细分析了 LMs-based 连续学习的挑战和未来工作。
May, 2024
本文通过利用多个领域的无标签样本,旨在开发一种有效的时间序列基础模型。实验结果表明,与其他方法相比,该提出的预训练方法结合 Transformer 模型在下游分类任务中具有更好的性能。
Oct, 2023
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了 LLMs 在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
通过调查现有的方法及其在预训练模型上的表现,我们观察到 Generic Pre-training 方法隐含地减轻了多任务学习中遗忘现象的影响,因为预训练权重看起来通过导致更宽的极小值来缓解遗忘现象,基于这个发现,我们建议联合当前任务的损失和损失基底锐度的优化方法,以在顺序微调期间显式地鼓励更宽的基底,在多种设置中实现与最新技术的性能相当的顺序连续学习,而无需保留随任务数缩放的内存。
Dec, 2021
本文是对基于预训练模型的持续学习最新进展的综合调查,将现有方法分为三组进行分类,提供了它们的相似性、差异性、以及各自的优缺点的比较分析,并通过实证研究对比了各种最先进的方法,以凸显比较中公平性方面的关注点。
Jan, 2024
基于丰富的记忆资源和训练效率的重视,我们引入了一种适应性记忆回放的框架来解决不断学习问题,通过多臂赌博机问题的方法来动态选择训练数据,从而在保持高性能的同时减少了遗忘达 10%。
Apr, 2024
利用未标记数据预先训练编码器,然后在少量任务特定数据上微调,通过使用潜在动态建模和无监督的目标条件强化学习来促进学习代表捕捉底层 MDP 的多个方面,该方法显示出极高的数据效率并且提供与先前工作以及需要订单更多数据的其他预训练方法相比的最先进的性能
Jun, 2021