通过减小稳定性差距来实现高效的持续性预训练
本研究探讨了持续预训练作为开发面向特定领域的大型语言模型的一种替代策略,引入了通过领域自适应持续预训练在金融领域上开发的FinPythia-6.9B,FinPythia通过金融任务中持续预训练实现了稳定的改进,并进一步探索了简单而有效的数据选择策略,相较于常规的持续预训练方法,我们的数据选择策略在使用仅 10% 的语料库大小和成本时表现更好,在开放领域的标准任务上没有任何退化。本研究提出了一种以成本效益的方式构建面向特定领域的大型语言模型的替代解决方案。
Nov, 2023
该论文调研了关于大型语言模型(LLMs)的持续学习方面的最新工作,提出了一种新颖的多阶段分类方案,涉及持续预训练、指令调整和对齐;对LLMs的持续学习与更简单的小模型的适应方法以及其他增强策略进行对比;同时,在讨论基准和评估的基础上,提出了几个挑战和未来工作方向。
Feb, 2024
这篇论文研究了大型语言模型(LLMs)中不断学习(CL)领域的发展,重点是开发高效和可持续经验的训练策略。通过不断适应域预训练,我们的研究评估了LLMs在不同数据环境中的适应性和能力,并引入了一个新的基准来衡量这种适应能力,揭示了关于知识转移和模型大小的若干关键见解。
Feb, 2024
最近,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了重要的成就。然而,由于灾难性遗忘的原因,它们仍然无法模拟类似人类的连续学习。为了解决这个问题,已经开发了各种基于连续学习(CL)的方法来改进LMs,并使其能够适应新任务而不会遗忘以前的知识。然而,目前对现有方法的系统分类和性能比较仍然缺乏,这是我们调查的空白。我们对基础语言模型中应用的基于CL方法的现有文献进行了全面回顾、总结和分类,如预训练语言模型(PLMs)、大型语言模型(LLMs)和视觉语言模型(VLMs)。我们将这些研究分为离线CL和在线CL,其中包括传统方法、基于参数效率的方法、基于指令调优的方法和连续预训练方法。离线CL包括领域增量学习、任务增量学习和类增量学习,而在线CL又分为困难任务边界和模糊任务边界设置。此外,我们概述了CL研究中使用的典型数据集和度量标准,并详细分析了LMs-based连续学习的挑战和未来工作。
May, 2024
本文研究了以持续预训练(CPT)的方式构建新语言的大型语言模型(LLMs),并通过40个模型规模的并行实验表明:1)CPT能够快速收敛并以可扩展的方式节省大量计算资源;2)CPT遵循Hoffmann等人(2022)提出的扩展缩放定律,具有联合数据-参数缩放项;3)根据估计的扩展因子,CPT的计算最优数据-参数分配存在显著差异;4)在训练持续时间和语言属性的影响下,规模化的迁移效果可以通过数据重播的方法有效减轻灾难性遗忘。希望我们的发现对研究界在规模化LLMs的可迁移性方面提供深入的见解。
Jul, 2024
本研究解决了大语言模型在特定领域表现欠佳的问题,提出了关键混合比(CMR)的概念,以优化一般语料和领域特定语料的混合比例。研究发现,CMR在训练效率和效果间保持平衡,提供了优化语言模型在特定领域训练的实用指南,确保模型在一般和领域特定性能上的最佳表现。
Jul, 2024
本研究旨在解决大型语言模型(LLMs)在持续预训练与指令微调之间的平衡问题,以保持最新的数据和准确的指令遵循能力。研究发现,通过持续预训练可以有效提升基础模型及其指令微调模型的指令遵循能力,而无需额外的指令数据和微调,展示了高计算效率的潜力。
Oct, 2024