超小型语言模型

May, 2024

Super Tiny Language Models

Dylan Hillier, Leon Guertler, Cheston Tan, Palaash Agrawal, Chen Ruirui...

TL;DR通过引入一系列研究工作，本文介绍了超小型语言模型 (STLMs) 的创新技术和高性能表现，包括字节级的分词和汇聚机制、参数联系以及高效的训练策略，以实现与传统模型相比参数数量减少了 90% 至 95% 的竞争性表现，未来的研究将探索包括无分词模型、基于自我博弈的训练以及替代训练目标等多个子问题，旨在使高性能语言模型在更广泛的应用领域中更具可访问性和实用性。

Abstract

The rapid advancement of large language models (LLMs) has led to significant improvements in natural language processing but also poses challenges due to their high computational and energy demands. This paper introduces a series of research efforts focused on →

large language models super tiny language models parameter count reduction tokenizer-free models training objectives

发现论文，激发创造

TinyStories: 语言模型有多小才能够流利地说英语？

本文介绍了 TinyStories 数据集和一种新的评估语言模型的方法，该数据集使用 GPT-3.5 和 GPT-4 生成，只包含 3 到 4 岁儿童通常理解的单词。使用 TinyStories 可以训练和评估比现有模型小得多的语言模型，并引入新的评估范式来评估这些模型的语言能力和多维度的得分，例如语法、创造性和连贯性等。这可以促进低资源或专业领域的语言模型的发展、分析和研究，并提高对于语言模型能力的认识。

May, 2023

微型巨人：在真实世界中，小一些的大型语言模型能在会议摘要中斩获更高的分数吗？

研究论文重点探讨了大型语言模型（LLMs）在实际工业环境中面临的挑战，比较了经过微调的紧凑型 LLMs（如 FLAN-T5、TinyLLaMA、LiteLLaMA）与零样本大型 LLMs（如 LLaMA-2、GPT-3.5、PaLM-2）在会议摘要任务上的性能表现，结果发现 FLAN-T5 是一个比较适宜的成本效益高、实际工业部署的解决方案。

Feb, 2024

重新思考微型语言模型的优化和架构

通过实证研究基于一个亿参数的小型语言模型，在神经网络结构、参数初始化和优化策略三个方面分析了每个组件的影响，找到了多个设计公式，如令牌压缩、结构微调、参数继承和多轮训练等，证实了它们对小型语言模型的有效性，进一步优化和改进模型的效果明显，验证了其优越性能。

Feb, 2024

MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制，我们提出了一种名为 MobileLLM 的强基线网络，它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外，我们还提出了一种即时的分块权重共享方法，不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度，相较于 MobileLLM 125M/350M。此外，MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升，并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性，突显了小型模型在常见设备使用情景中的能力。

Feb, 2024

MiniCPM: 小型语言模型的潜力与可伸缩的训练策略揭示

通过开展大量模型和数据维度的可扩展研究，我们引入了 MiniCPM，这是一种高效资源的替代模型，旨在探索小型语言模型在未来大型语言模型研究中的潜力，并通过模型收敛和数据适应来优化比例关系。

Apr, 2024

朝着帕累托最优吞吐量的小语言模型服务

通过实验和分析，本文旨在对小型语言模型的推理性能和能量效率进行基准测试，并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。

Apr, 2024

小型语言模型能否学习、遗忘并保留噪声模式？

该研究调查了小语言模型在学习、保留和消除通常不存在于互联网上的噪声方面的能力，并评估了四个小语言模型的表现在不同训练水平下，发现 Olmo 在任务上表现始终良好，即使它是参数最少的模型。

Jul, 2024

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022

大规模生成语言模型是否需要数十亿参数？

这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡，旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法，从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具，为 AI 语言建模的可持续和可访问的未来做出了贡献。

Sep, 2023

MobiLlama：面向准确轻量级全透明的 GPT

通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama，本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战，并关注性能提升和资源需求降低，以满足隐私、安全和可持续性部署的需求。

Feb, 2024