Llama3-70B-Instruct 的领域适应：连续预训练和模型合并的综合评估

Jun, 2024

Llama3-70B-Instruct 的领域适应：连续预训练和模型合并的综合评估

Domain Adaptation of Llama3-70B-Instruct through Continual Pre-Training and Model Merging: A Comprehensive Evaluation

Shamane Siriwardhana, Mark McQuade, Thomas Gauthier, Lucas Atkins, Fernando Fernandes Neto...

TL;DR在金融监管数据集上，我们对 Meta-Llama-3-70B-Instruct 模型的领域适应性进行了广泛的实验，探索其在通用和特定领域基准上的性能。我们关注了持续预训练（CPT）和模型合并，旨在增强模型的特定领域能力，同时减轻灾难性遗忘。通过本研究，我们评估了将金融监管数据集整合到一个健壮的语言模型中的影响，并检验了我们的模型合并技术在保护和提高模型的指导能力方面的有效性。

Abstract

We conducted extensive experiments on domain adaptation of the meta-llama-3-70b-instruct model on SEC data, exploring its performance on both general and domain-specific benchmarks. Our focus included continual p

domain adaptation meta-llama-3-70b-instruct model continual pre-training model merging financial regulatory data

发现论文，激发创造

通过减小稳定性差距来实现高效的持续性预训练

持续预训练是适应大型语言模型（LLM）到新领域的主要方法之一，研究探讨了在这个过程中 LLM 的行为和性能，提出了三种有效策略来增强 LLM 在固定计算资源下的性能，经实验证实这些策略在医学任务性能和通用任务性能方面均取得了令人满意的成果。

Jun, 2024

EcomGPT-CT: 具有半结构化数据的电子商务大型语言模型的连续预训练

大型语言模型（LLMs）预先训练在海量语料库上，在各种 NLP 任务中展示了出色的性能。本文针对特定领域应用这些模型仍然存在着显著挑战，如缺乏领域知识、有限的领域知识利用能力和不足的领域特定数据格式适应能力。因此，本研究聚焦于以电子商务领域为示例进行面向领域的持续预训练。具体而言，我们探讨了在无标签的一般和电子商务语料库上进行持续预训练对 LLMs 的影响。此外，我们设计了一种混合策略来更好地利用电子商务半结构化数据。我们构建了多个任务来评估 LLMs 在电子商务领域中的少样本上下文学习能力以及经过指令调整后的零样本性能。实验结果证明了电子商务 LLMs 持续预训练的有效性，以及我们设计的数据混合策略的功效。

Dec, 2023

通过跨语言知识传递向羊驼教授一门新语言

该研究探索了以成本效益的方法来适应新的低资源语言的事先训练的大型语言模型（LLMs），特别关注爱沙尼亚语。通过利用 Llama 2 模型，我们研究了将跨语言指令调整与额外的单语预训练相结合的影响。我们的结果表明，即使是相对较少的额外单语预训练再加上跨语言指令调整也能显著提高爱沙尼亚语的结果。此外，我们展示了从高质量的英文指令到爱沙尼亚语的跨语言知识转移，从而提高了常识推理和多轮对话能力。我们的最佳模型 extsc {Llammas} 是首个适用于爱沙尼亚语的开源指令跟随 LLM。此外，我们发布了爱沙尼亚的第一个通用任务指令数据集 Alpaca-est。这些贡献标志着发展适用于爱沙尼亚语的开源 LLMs 的初步进展。

Apr, 2024

医学问题回答中领域特定语言模型的持续训练和微调

使用连续训练和指导微调的方法，快速适应中国医学领域的 Llama 2 基础模型，实验证实了该方法的有效性，产生了与 GPT-3.5-turbo 相媲美的模型，并且使用更少的计算资源。这个领域特定模型对于各种中国医学应用是有用的，并为领域特定训练提供了一个模板，用于那些预训练模型缺乏所需专业知识的领域，如法律、科学和工程。

Nov, 2023

大型语言模型中的连续预训练探索：洞见与影响

这篇论文研究了大型语言模型（LLMs）中不断学习（CL）领域的发展，重点是开发高效和可持续经验的训练策略。通过不断适应域预训练，我们的研究评估了 LLMs 在不同数据环境中的适应性和能力，并引入了一个新的基准来衡量这种适应能力，揭示了关于知识转移和模型大小的若干关键见解。

Feb, 2024

语言模型的持续学习

本研究提出了一种新的方法，使用一系列未标记的领域语料库来连续培训语言模型，从而改善它们的最终任务绩效。该方法的关键创新点是一种软掩蔽机制，它直接控制语言模型的更新，同时提供了一个新的代理来保留原始 LM 中的通用知识。实证评估证明了所提方法的有效性。

Feb, 2023

构建领域特定的大型语言模型的高效连续预训练

本研究探讨了持续预训练作为开发面向特定领域的大型语言模型的一种替代策略，引入了通过领域自适应持续预训练在金融领域上开发的 FinPythia-6.9B，FinPythia 通过金融任务中持续预训练实现了稳定的改进，并进一步探索了简单而有效的数据选择策略，相较于常规的持续预训练方法，我们的数据选择策略在使用仅 10% 的语料库大小和成本时表现更好，在开放领域的标准任务上没有任何退化。本研究提出了一种以成本效益的方式构建面向特定领域的大型语言模型的替代解决方案。

Nov, 2023

大规模语言模型的持续学习：一项综合调研

对大型语言模型在持续学习、预训练、微调以及评估协议方面进行综述.

Apr, 2024

指令 CP：将大型语言模型快速转换为目标语言

通过 Instruction Continual Pre-training (InsCP) 的方法，可以在维持对话能力的同时，将大型语言模型（LLMs）调整为适应其他语言，从而避免对有害内容过滤的能力下降，且只需要 0.1 十亿个高质量的指令遵循数据的资源消耗相对较低。

May, 2024

语言模型的持续训练用于少样本学习

本文提出了连续后训练（CPT）的问题，建议使用一系列未标记的领域语料库不断扩展语言模型的知识，以在领域内改进几次短时间的任务学习的效果，并成功地验证了其有效性。

Oct, 2022