语言模型的扩展：方法、分析与训练经验

Dec, 2021

语言模型的扩展：方法、分析与训练经验

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann...

TL;DR本文通过对转换器为基础的语言模型在不同规模下的性能分析，证明规模越大，其在阅读理解、事实检查和鉴别有害语言等方面的性能提高最大，但在逻辑推理和数学推理等方面的收益较少。此外，本文还介绍了训练数据集和模型行为的综合分析，探讨了语言模型在 AI 安全和减轻下游危害中的应用。

Abstract

language modelling provides a step towards intelligent communication systems by harnessing large repositories of written human knowledge to better predict and understand the world. In this paper, we present an analysis of →

language modelling transformer-based language model model performance ai safety downstream harms

发现论文，激发创造

训练最优的大型语言模型

本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量，并发现对于计算优化的训练，模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla，该模型在大范围的下游评估任务中均匀且显著地优于 Gopher，GPT-3，Jurassic-1 和 Megatron-Turing NLG。

Mar, 2022

fMRI 中语言编码模型的尺度定律

本文研究使用基于 Transformer 的语言模型，比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示，当模型或数据规模增大时，在音频与语言预测方面均能获得显著性提升，这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。

May, 2023

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

超越模仿游戏：量化和推断语言模型的能力

通过引入 Beyond the Imitation Game 基准测试（BIG-bench），我们评估了多种大小的语言模型在 204 个跨不同领域的任务上的表现，发现规模越大，其表现和校准也越好，但与人类专家相比还是很差，同时也发现在歧义上下文中情境偏见随规模增加而增加，但通过提示可以改善。

Jun, 2022

不止尺寸重要：小型语言模型也是少样本学习者

该研究通过将文本输入转换为包含任务描述的填空问题，并结合梯度优化和利用未标记数据，成功地创造了小型语言模型，达到了与 GPT-3 相似的性能，为小型语言模型的成功应用提供了关键因素。

Sep, 2020

多尺度 Transformer 语言模型

本文研究了多尺度变压器语言模型，提出了三种不同的架构，并实验性地证明了多尺度表示在内存效率，计算时间和困惑度方面的优势，具有特殊的吸引力。

May, 2020

现实环境中的语言与计算机环境中的语言：尽管模型规模更大但仍无法像人类一样理解语言

通过对三种不同模型的测试（Bard、ChatGPT-3.5 和 ChatGPT-4）以及与人类结果的比较，研究了模型大小对于语言模型性能的影响，发现模型大小的增加可以提高性能，但语言模型仍不如人类敏感。

Apr, 2024

Megatron-LM：使用模型并行训练十亿级语言模型

本文提出了一种用于训练亿级参数的 transformer 模型的简便、高效的内部层模型并行方法，并且通过在 WikiText103，LAMBADA 和 RACE 数据集中取得了最先进的结果，证明了大型语言模型可以进一步推进最先进的技术。

Sep, 2019

PaLM: 基于路径的语言建模规模化

通过使用 Pathways ML 系统训练 PaLM，我们证明了模型规模对少样本学习的影响，PaLM 540B 在大量语言理解、生成基准测试中取得了突破性表现，并在多步推理任务中超越了微调表现，另外还有强大的多语种任务和源代码生成能力，以及对偏差和毒性的全面分析。

Apr, 2022

GLaM: 使用专家混合方法高效扩展语言模型

本文提出了一种名为 GLaM（通用语言模型）的语言模型，采用稀疏的专家混合体系结构，可以提高模型容量同时降低训练成本。该模型可规模化至 1.2 万亿参数，性能优于 GPT-3，且训练花费和计算资源开销较小。

Dec, 2021