重新思考微型语言模型的优化和架构
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为 MobileLLM 的强基线网络,它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外,我们还提出了一种即时的分块权重共享方法,不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度,相较于 MobileLLM 125M/350M。此外,MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升,并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性,突显了小型模型在常见设备使用情景中的能力。
Feb, 2024
我们分析了现有的语言模型架构,发现特征崩溃问题,然后根据理论分析提出了一种增强语言模型非线性的新的高效模型架构,命名为 PanGu-$\pi$,并通过实验证明了其在效率和准确性方面的优势。
Dec, 2023
本文介绍了使用 MindSpore 在 Ascend 910 人工智能处理器集群上训练的具有 1.085T 参数的 PanGu-Sigma 语言模型,其使用 Random Routed Experts (RRE) 的密集 Transformer 模型来扩展,通过使用 Expert Computation 和 Storage Separation (ECSS) 在 329B 令牌上高效地训练。实验结果显示,PanGu-Sigma 在各种中文 NLP 下游任务的零 - shot 学习中提供了最先进的性能。此外,当在开放式对话、问答、机器翻译和代码生成的应用数据中进行微调时,PanGu-Sigma 表现出了强大的能力。
Mar, 2023
本文提出一种名为 AutoTinyBERT 的方法,采用一次神经结构搜索技术来自动搜索 BERT 架构的超参数,为各种延迟约束提供自适应和高效的超小型 PLMs 开发方式,并在 GLUE 和 SQuAD 基准测试中表现出优异的性能。
Jul, 2021
通过跳过 Transformer LLMs 中后面的 attention 子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
本研究旨在构建一个大型语言模型 BLOOM,对千亿级模型不同结构、不同预训练语料、多语言模型的零样本泛化性能进行剖析研究,并探究 Transformer 的规模扩展行为以选择合适的目标模型大小、形状和训练配置。
Oct, 2022
通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama,本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战,并关注性能提升和资源需求降低,以满足隐私、安全和可持续性部署的需求。
Feb, 2024
这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡,旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法,从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具,为 AI 语言建模的可持续和可访问的未来做出了贡献。
Sep, 2023
本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量,并发现对于计算优化的训练,模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla,该模型在大范围的下游评估任务中均匀且显著地优于 Gopher,GPT-3,Jurassic-1 和 Megatron-Turing NLG。
Mar, 2022
通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试,本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。
Nov, 2023