重新思考微型语言模型的优化和架构

Feb, 2024

重新思考微型语言模型的优化和架构

Rethinking Optimization and Architecture for Tiny Language Models

Yehui Tang, Fangcheng Liu, Yunsheng Ni, Yuchuan Tian, Zheyuan Bai...

TL;DR通过实证研究基于一个亿参数的小型语言模型，在神经网络结构、参数初始化和优化策略三个方面分析了每个组件的影响，找到了多个设计公式，如令牌压缩、结构微调、参数继承和多轮训练等，证实了它们对小型语言模型的有效性，进一步优化和改进模型的效果明显，验证了其优越性能。

Abstract

The power of large language models (LLMs) has been demonstrated through numerous data and computing resources. However, the application of language models on mobile devices is facing huge challenge on the computation and memory costs, that is, tiny →

language models tiny language models neural architecture parameter initialization optimization strategy

发现论文，激发创造

MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制，我们提出了一种名为 MobileLLM 的强基线网络，它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外，我们还提出了一种即时的分块权重共享方法，不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度，相较于 MobileLLM 125M/350M。此外，MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升，并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性，突显了小型模型在常见设备使用情景中的能力。

Feb, 2024

PanGu-$π$: 通过非线性补偿提高语言模型架构

我们分析了现有的语言模型架构，发现特征崩溃问题，然后根据理论分析提出了一种增强语言模型非线性的新的高效模型架构，命名为 PanGu-$\pi$，并通过实验证明了其在效率和准确性方面的优势。

Dec, 2023

PanGu-Σ: 用稀疏异构计算实现万亿参数语言模型

本文介绍了使用 MindSpore 在 Ascend 910 人工智能处理器集群上训练的具有 1.085T 参数的 PanGu-Sigma 语言模型，其使用 Random Routed Experts (RRE) 的密集 Transformer 模型来扩展，通过使用 Expert Computation 和 Storage Separation (ECSS) 在 329B 令牌上高效地训练。实验结果显示，PanGu-Sigma 在各种中文 NLP 下游任务的零 - shot 学习中提供了最先进的性能。此外，当在开放式对话、问答、机器翻译和代码生成的应用数据中进行微调时，PanGu-Sigma 表现出了强大的能力。

Mar, 2023

AutoTinyBERT：用于高效预训练语言模型的自动超参数优化

本文提出一种名为 AutoTinyBERT 的方法，采用一次神经结构搜索技术来自动搜索 BERT 架构的超参数，为各种延迟约束提供自适应和高效的超小型 PLMs 开发方式，并在 GLUE 和 SQuAD 基准测试中表现出优异的性能。

Jul, 2021

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

拥有 100 万 GPU 小时，应该如何选择训练语言模型？

本研究旨在构建一个大型语言模型 BLOOM，对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究，并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。

Oct, 2022

MobiLlama：面向准确轻量级全透明的 GPT

通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama，本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战，并关注性能提升和资源需求降低，以满足隐私、安全和可持续性部署的需求。

Feb, 2024

大规模生成语言模型是否需要数十亿参数？

这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡，旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法，从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具，为 AI 语言建模的可持续和可访问的未来做出了贡献。

Sep, 2023

训练最优的大型语言模型

本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量，并发现对于计算优化的训练，模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla，该模型在大范围的下游评估任务中均匀且显著地优于 Gopher，GPT-3，Jurassic-1 和 Megatron-Turing NLG。

Mar, 2022

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023