D-CPT 法：针对大型语言模型的领域专用持续预训练规模定律

Jun, 2024

D-CPT 法：针对大型语言模型的领域专用持续预训练规模定律

D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models

Haoran Que, Jiaheng Liu, Ge Zhang, Chenchen Zhang, Xingwei Qu...

TL;DR基于尺度定律的领域特定持续预训练法 (D-CPT Law) 可用于预测不同尺寸的语言模型的理想混合比例，以及交叉领域的 D-CPT Law 可用于目标领域的预测，不同尺寸和数据集尺寸的训练成本相对较低。

Abstract

continual pre-training (CPT) on large language models (LLMs) has been widely used to expand the model's fundamental understanding of specific downstream domains (e.g., math and code). For the CPT on domain-specif

continual pre-training large language models scaling law domain-specific continual pre-training cross-domain

发现论文，激发创造

语言模型的持续训练用于少样本学习

本文提出了连续后训练（CPT）的问题，建议使用一系列未标记的领域语料库不断扩展语言模型的知识，以在领域内改进几次短时间的任务学习的效果，并成功地验证了其有效性。

Oct, 2022

构建领域特定的大型语言模型的高效连续预训练

本研究探讨了持续预训练作为开发面向特定领域的大型语言模型的一种替代策略，引入了通过领域自适应持续预训练在金融领域上开发的 FinPythia-6.9B，FinPythia 通过金融任务中持续预训练实现了稳定的改进，并进一步探索了简单而有效的数据选择策略，相较于常规的持续预训练方法，我们的数据选择策略在使用仅 10% 的语料库大小和成本时表现更好，在开放领域的标准任务上没有任何退化。本研究提出了一种以成本效益的方式构建面向特定领域的大型语言模型的替代解决方案。

Nov, 2023

EcomGPT-CT: 具有半结构化数据的电子商务大型语言模型的连续预训练

大型语言模型（LLMs）预先训练在海量语料库上，在各种 NLP 任务中展示了出色的性能。本文针对特定领域应用这些模型仍然存在着显著挑战，如缺乏领域知识、有限的领域知识利用能力和不足的领域特定数据格式适应能力。因此，本研究聚焦于以电子商务领域为示例进行面向领域的持续预训练。具体而言，我们探讨了在无标签的一般和电子商务语料库上进行持续预训练对 LLMs 的影响。此外，我们设计了一种混合策略来更好地利用电子商务半结构化数据。我们构建了多个任务来评估 LLMs 在电子商务领域中的少样本上下文学习能力以及经过指令调整后的零样本性能。实验结果证明了电子商务 LLMs 持续预训练的有效性，以及我们设计的数据混合策略的功效。

Dec, 2023

语言模型的持续学习

本研究提出了一种新的方法，使用一系列未标记的领域语料库来连续培训语言模型，从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制，它直接控制语言模型的更新，同时提供了一个新的代理来保留原始 LM 中的通用知识。实证评估证明了所提方法的有效性。

Feb, 2023

终身预训练：持续适应新出现的语料库的语言模型

本研究通过使用不同的持续学习算法对预先训练的语言模型进行不断的增量预训练，并通过评估模型对新数据的适应能力以及对早期数据所学知识的保留能力来研究生命周期语言模型预训练挑战，结果表明采用基于蒸馏的方法可以最有效地保留早期领域的下游任务性能。这些算法还可以提高知识转移能力，使模型在最新数据上实现更好的下游性能，并在由于时间而存在训练和评估之间的分布差异时，提高时态的泛化能力。

Oct, 2021

大型语言模型中的连续预训练探索：洞见与影响

这篇论文研究了大型语言模型（LLMs）中不断学习（CL）领域的发展，重点是开发高效和可持续经验的训练策略。通过不断适应域预训练，我们的研究评估了 LLMs 在不同数据环境中的适应性和能力，并引入了一个新的基准来衡量这种适应能力，揭示了关于知识转移和模型大小的若干关键见解。

Feb, 2024

数据混合规律：通过预测语言建模性能来优化数据混合

预训练数据、语言模型、数据混合规律、模型性能和数据计划

Mar, 2024

大规模语言模型的持续学习：一项综合调研

对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.

Apr, 2024

大型语言模型下游任务性能的缩放规律

大型语言模型（LLMs）的缩放规律在设计中提供了重要的指导。本文研究了迁移学习中的缩放行为，探讨了预训练数据的选择和大小对下游性能的影响，并提供了选择适当的预训练数据的实用见解。

Feb, 2024

麒麟医：多阶段知识注入的先进医疗大型语言模型

将大型语言模型（LLMs）整合到医疗保健中存在潜力但也面临挑战。我们提出了一种多阶段训练方法，结合了专业域持续预训练（DCPT）、监督微调（SFT）和直接偏好优化（DPO），并引入一个包含医疗问答、纯文本、知识图谱和对话的 3Gb 中医数据集。通过我们的训练流程，医学 LLM（Qilin-Med）表现出显著的性能提升，突破了 Baichuan-7B 在 CMExam 上的准确率，并在 Huatuo-26M 测试集上超过了 SFT 的性能，在 BLEU-1 和 ROUGE1 上分别达到 16.66 和 27.44。这凸显了我们的训练方法在医疗应用中优化 LLMs 的优势。

Oct, 2023