BASE Layers：简化大规模稀疏模型的训练

Mar, 2021

BASE Layers：简化大规模稀疏模型的训练

BASE Layers: Simplifying Training of Large, Sparse Models

Mike Lewis, Shruti Bhosale, Tim Dettmers, Naman Goyal, Luke Zettlemoyer

TL;DR通过引入均衡分配的 EXPERT 层，使得大规模语言模型中的稀疏层更加简单。通过将词汇分配到专门的 EXPERT 模块中，可以将训练和推理的效率显著提高，同时避免了使用新的超参数或辅助损失的必要。

Abstract

We introduce a new balanced assignment of experts (BASE) layer for large language models that greatly simplifies existing high capacity sparse la

language models sparse layers balanced assignment training efficiency token-to-expert allocation

发现论文，激发创造

训练稀疏翻译模型的技巧

本文提出了使用 BASELayers 的稀疏缩放架构来缓解多任务学习中高资源任务偏差的问题，并通过温度加热机制和密集预训练两种技术来提高多语言机器翻译的性能。该方法在两个多语言翻译基准测试中的收敛速度比标准的 BASELayers 和密集缩放基线快了两倍以上。

Oct, 2021

深度学习中稀疏专家模型综述

稀疏专家模型是一种在近三十年中不断涌现的深度学习架构，通过在每个样本中使用参数子集来实现稀疏度，使参数计数与每个样本的计算分离，产生非常大但高效的模型，已在自然语言处理、计算机视觉和语音识别等领域中显著提高性能。

Sep, 2022

用于大型稀疏模型的哈希层

本研究通过使用哈希方法对大型 Transformer 模型中使用不同输入参数的稀疏层进行了训练，通过修改前馈层对序列中的当前标记进行哈希以便将其哈希到不同的权重集中，进一步证明此方法可以在不需要额外路由参数或负载平衡损失等的情况下超越或与 Switch Transformers 和 BASE Layers 等学习路由混合专家方法竞争，同时研究了不同的哈希技术、哈希大小和输入特征的表现，并表明了本研究的方法可以在大规模语言建模和对话任务、下游微调任务中表现出色。

Jun, 2021

稀疏专家混合模型的表示崩溃

该研究提出了一种在低维超球面上估计令牌和专家之间路由得分的方法，克服了表示塌陷问题并取得了更为一致路由的实验结果。

Apr, 2022

稀疏循环利用：从密集检查点训练专家混合模型

提出了一种简单的方法，即利用密集型模型的检查点初始化稀疏模型，从而重复利用一次训练的成本，实现计算效率和准确性的平衡。

Dec, 2022

径向网络：高性能大型语言模型的动态层路由

大型语言模型在内存、延迟和能耗方面常常面临困难。本文探讨了层稀疏性的实用性，并描述了一种基于 Token 级路由的径像网络方法，以减少生成整个序列所需的计算资源，实现更大容量的网络并明显降低计算和服务成本。

Apr, 2024

使用非监督领域发现技术扩展专家级语言模型

采用异步训练、领域发现及专家语言模型等方法，针对大规模稀疏语言模型进行了研究，实现了高效的语言模型训练。实验结果表明，针对语料库的聚类分析和专家模型的培训对于提升模型性能至关重要。

Mar, 2023

M6-T：探索稀疏专家模型及其进展

本文研究了稀疏专家模型中的关键因素，提出了专家原型法以改善模型质量，同时将模型规模扩大到 1 万亿参数，实现了与 TPU 相同的加速。

May, 2021

内存高效的 NLLB-200：大规模多语言机器翻译模型的语言专家剪枝

提出了一种修剪方法，可在保持翻译质量的同时，移除多语言机器翻译中不相关的习惯用语，并检测出特定语种的专家，以便使用 Sparse Mixture-of-Experts 模型在单个 GPU 上运行。

Dec, 2022

带有专家路由选择的专家混合模型

我们提出了一种基于专家选择的异构专家混合模型，通过让专家选择前 k 个标记来分配变量数量的专家，从而提高了训练收敛速度，并在 GLUE 基准测试中取得更高的性能。

Feb, 2022