分支 - 训练 - 合并：专家语言模型的尴尬并行训练

Aug, 2022

分支 - 训练 - 合并：专家语言模型的尴尬并行训练

Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models

Margaret Li, Suchin Gururangan, Tim Dettmers, Mike Lewis, Tim Althoff...

TL;DR提出了 Branch-Train-Merge (BTM) 算法来高效地训练大型语言模型，该算法通过学习一组具有独立专业性的语言模型 (ELM)，将一个新类的 LLMs 的子部分独立训练在不同的数据子集上，并实验表明相对于当前 LLMs 的训练方法，BTM 能够获得更好的性能且相对于训练成本而言更高效

Abstract

We present branch-train-merge (BTM), a communication-efficient algorithm for embarrassingly parallel training of large language models (LL

branch-train-merge communication-efficient algorithm large language models independent expert lms domain specialization

发现论文，激发创造

分支训练 MiX：将专家 LLMs 混合到一个专家混合 LLM 中

我们研究了训练大型语言模型在多个专业领域（如编码、数学推理和世界知识）中具备能力的高效方法。我们的方法名为 Branch-Train-MiX（BTX），从一个种子模型开始，在高吞吐量和减少通信成本的尴尬地并行训练专家。在专家异步训练后，BTX 将它们的前馈参数作为混合专家（MoE）层的专家团队，并平均剩余参数，接着采用 MoE 微调阶段学习标记级别的路由。BTX 推广了两种特殊情况，Branch-Train-Merge 方法不需要 MoE 微调阶段学习路由，而稀疏升级则省略了专家异步训练阶段。与替代方法相比，BTX 在准确性和效率之间取得了最佳平衡。

Mar, 2024

训练专家语言模型带来的益处：比指令调整更胜一筹

本文研究发现，相对于使用多个任务的 multitask-prompted fine-tuning 方法进行指导调整的语言模型，仅针对单个任务进行专家模型的 fine-tuning 能够使模型在 11 个不同的未知数据集上以及 13 个 BIG-bench 基准测试数据集上平均准确率分别提高 3.20% 和 1.29%。此外，分别训练每个专家模型而不是单个 MT LM 进行 zero-shot 推断具有许多好处，包括避免负面任务转移，能够持续学习新任务而无需重新训练以避免灾难性遗忘以及显示在合并单个专家时具有组合能力。

Feb, 2023

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

探究大型预训练语言模型在机器翻译中的应用：你所不知道的

本研究评估了大小不同的预训练语言模型（PLMs），并比较了它们在不同领域机器翻译任务中的性能表现，结果表明，对于临床数据而言，相对较小的 Marian 模型表现更好。

Sep, 2022

利用 BERT 优化神经机器翻译

本文介绍了一种有力的方法，将事先训练好的语言模型（LMs）与神经机器翻译（NMT）相结合，以解决当前 LM 微调应用于资源丰富任务时巨大遗忘的难题，并在机器翻译任务中取得了优越的成果。

Aug, 2019

机器翻译的范式转变：提升大型语言模型的翻译性能

通过提出一种新的微调方法，我们设计了一种面向翻译任务的先进语言模型的翻译器 ALMA，该模型在 WMT'21 和 WMT'22 的测试数据集上相比于之前的工作和具有 7B 或 13B 参数的模型有着显著性能提升，并为机器翻译领域的新的训练范式奠定了基础。

Sep, 2023

通过仅使用平行数据训练的大型语言模型研究翻译能力

本研究引入了 PLUME（Parallel Language Model），该模型是由三个 2B LLMs 组成，采用不同词汇量（32k、128k 和 256k），并且完全基于加泰罗尼亚语为中心的平行语料进行训练。这些模型在 16 个有监督翻译方向和 56 个零样例下的翻译性能与之前的编码解码架构相当。利用这些模型，我们对 LLMs 的翻译能力进行了全面调查，探究其性能、提示的不同元素以及跨语言表示空间的影响。

Jun, 2024

LLM 预训练中的基于贝叶斯优化的检查点合并

我们提出了一种在预训练大型语言模型中合并检查点的方法，通过贝叶斯优化在广泛的搜索空间中找到最佳合并权重，实验证明我们的方法在最大限度减少成本的同时增加了预训练能力，并展示了跨多个领域的强大泛化能力。

Mar, 2024

BabelBERT: 大规模多语言 Transformer 遇上大规模多语言词汇资源

本文通过在 50 种语言中使用 BabelNet 这一丰富的跨语言单词知识库，将大规模多语言 Transformer（MMT）暴露于多语言词汇知识，并利用对比目标指导下的词汇专业化过程，大幅提高了双语词汇归纳、跨语言单词相似性和跨语言句子检索等交叉语言词汇任务的性能。同时，实验还表明，相对于语言多样性，MMT 的预训练质量对性能有更大的影响。

Aug, 2022

通过从头开始训练领域知识来匹配领域专家

通过领域特定的自回归训练方法，在小型的 GPT-2 模型上训练神经科学文献，可以实现即使在小规模的语言模型上也能达到专家水平的性能表现。

May, 2024