GLaM: 使用专家混合方法高效扩展语言模型

ICMLDec, 2021

GLaM: 使用专家混合方法高效扩展语言模型

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin...

TL;DR本文提出了一种名为 GLaM（通用语言模型）的语言模型，采用稀疏的专家混合体系结构，可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数，性能优于 GPT-3，且训练花费和计算资源开销较小。

Abstract

scaling language models with more data, compute and parameters has driven significant progress in natural language processing. For example, thanks to →

language models scaling glam sparse nlp tasks

发现论文，激发创造

使用大型语言模型进行大规模多语言浅层融合

利用单一多语言语言模型（LM）来进行多语言浅层融合任务，并将其应用于最先进的端到端模型，相对于类似推理期间的密集 LM ，GLaM 可将英语长尾测试集的 WER 降低 4.4 ％，平均相对 WER 降低 3.85％，并且最高降低 10％。

Feb, 2023

大型语言模型：一份调查报告

对大型语言模型（LLMs）进行了综述，包括三个流行的 LLM 系列（GPT，LLaMA，PaLM）的特点、贡献和局限性，同时讨论了构建和增强 LLMs 的技术、为 LLM 训练、微调和评估准备的常用数据集以及常用的 LLM 评估指标，最后讨论了未来的挑战和研究方向。

Feb, 2024

mGPT: 少样本学习器转向多语言

本文介绍了两种自回归 GPT 类模型，使用维基百科和 Colossal Clean Crawled Corpus 训练了 60 种语言、25 种语言系的搜索，展示了多种任务上的表现，包括分类、生成、序列标记和知识探测，在多语种任务上有着与 Facebook 最近发布的 XGLM 模型相媲美的表现。

Apr, 2022

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

拥有 100 万 GPU 小时，应该如何选择训练语言模型？

本研究旨在构建一个大型语言模型 BLOOM，对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究，并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。

Oct, 2022

大规模生成语言模型是否需要数十亿参数？

这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡，旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法，从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具，为 AI 语言建模的可持续和可访问的未来做出了贡献。

Sep, 2023

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

Galactica: 科学领域的大型语言模型

该论文介绍了 Galactica: 一个可以存储、组合和推理科学知识的大型语言模型。通过在大量科学文章、参考资料、知识库和其他来源上的模型训练，我们在多个科学任务上超越了现有模型。这表明了语言模型作为科学新接口的潜力。

Nov, 2022

GPT-3 家族大型语言模型综述，包括 ChatGPT 和 GPT-4

这篇综述论文总结了关于 GPT-3 家族大型语言模型的最近研究进展，并指导研究社区未来发展方向。

Oct, 2023

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020