MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

Feb, 2024

MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Zechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian...

TL;DR通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制，我们提出了一种名为 MobileLLM 的强基线网络，它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外，我们还提出了一种即时的分块权重共享方法，不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度，相较于 MobileLLM 125M/350M。此外，MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升，并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性，突显了小型模型在常见设备使用情景中的能力。

Abstract

This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs with fewer than a

large language models mobile devices model architecture embedding sharing accuracy enhancement

发现论文，激发创造

MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试

通过使用较少参数和定量化等模型压缩技术，MobileAIBench 评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动 AI 研究和部署。

Jun, 2024

MobiLlama：面向准确轻量级全透明的 GPT

通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama，本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战，并关注性能提升和资源需求降低，以满足隐私、安全和可持续性部署的需求。

Feb, 2024

革命性的移动互动：在移动设备上支持 30 亿参数的 GPT LLM

AI 领域近年来取得了显著的进展，尤其是基于变压器架构的强大大型语言模型（LLMs）的出现。本文介绍了一种创新的 LLM 推理方法，展望了在无需网络连接的情况下，拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手，而且通过原生代码和模型量化技术的结合，还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力，同时保护了用户的隐私并消除了延迟问题。

Sep, 2023

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

一个量化的大型语言模型在各种智能手机上的性能评估

本研究探讨在各种苹果 iPhone 型号上进行设备内大型语言模型 (LLM) 推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的 LLM 的现有文献进行利用，我们的研究考察了高性能 LLM 在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果，我们提供了关于设备内推理能力的见解。

Dec, 2023

移植大型语言模型到移动设备以进行问答

将大型语言模型部署在移动设备上，使得所有自然语言处理的能力可在设备上使用；LLM 的重要用例是问答系统，可以提供准确和上下文相关的回答给用户的各种查询，并通过将 Orca-Mini-3B 模型的 6 位量化版本应用在 Galaxy S21 智能手机上，实验结果表明 LLM 推理在交互速度下进行，并能给出高质量的与政治、地理或历史相关的用户查询的答案。

Apr, 2024

大规模生成语言模型是否需要数十亿参数？

这篇论文提出了用于开发高效大型语言模型的新系统和方法。研究探讨了模型大小、性能和计算资源之间的权衡，旨在最大限度地提高这些 AI 系统的效率。该研究发现了允许模型不同部分共享参数的新方法，从而减少所需的唯一参数总数。这种方法确保了模型在保持紧凑的同时不牺牲其学习和表示复杂语言结构的能力。该研究为创建更高效和有效的大型语言模型提供了宝贵的见解和工具，为 AI 语言建模的可持续和可访问的未来做出了贡献。

Sep, 2023

重新思考微型语言模型的优化和架构

通过实证研究基于一个亿参数的小型语言模型，在神经网络结构、参数初始化和优化策略三个方面分析了每个组件的影响，找到了多个设计公式，如令牌压缩、结构微调、参数继承和多轮训练等，证实了它们对小型语言模型的有效性，进一步优化和改进模型的效果明显，验证了其优越性能。

Feb, 2024

超小型语言模型

通过引入一系列研究工作，本文介绍了超小型语言模型 (STLMs) 的创新技术和高性能表现，包括字节级的分词和汇聚机制、参数联系以及高效的训练策略，以实现与传统模型相比参数数量减少了 90% 至 95% 的竞争性表现，未来的研究将探索包括无分词模型、基于自我博弈的训练以及替代训练目标等多个子问题，旨在使高性能语言模型在更广泛的应用领域中更具可访问性和实用性。

May, 2024

互联网上大规模语言模型的分布式推理和微调

本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议，用于自动分配设备以最大化系统总吞吐量，并展示了这些算法在 Petals 中的应用，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

Dec, 2023