利用MLLM-NPU设备进行每秒1000标记的本地语言模型填充

Jul, 2024

利用MLLM-NPU设备进行每秒1000标记的本地语言模型填充

Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU

Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang...

TL;DR通过引入第一款有效利用设备上神经处理单元（NPU）的LLM推理系统mllm-NPU，该系统能够在设备上实现实用的大型语言模型，并在预填充阶段实现比竞争基准快22.4倍的速度和30.7倍的节能，为亿级模型（Qwen1.5-1.8B）实现每秒超过1,000个令牌的预填充，为实用的设备上LLM开辟了新的道路。

Abstract

on-device large language models (LLMs) are catalyzing novel mobile applications such as UI task automation and personalized email auto-reply, without giving away users' private data. However, on-device LLMs still suffer from unacceptably long →

发现论文，激发创造

在CPU上高效LLM推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时，在CPU上加速LLM推理，展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性，并显示了在CPU上的极高推理效率。

Nov, 2023

LLM 闪电般的运算：利用有限内存高效推理的大型语言模型

本研究旨在通过使用闪存将模型参数存储在DRAM之外，以满足超过DRAM容量的大型语言模型（LLMs）的高效运行需求。本文提出了两种主要技术，即通过重新使用已激活的神经元来减少数据传输的“窗口化”与利用闪存的顺序数据访问能力来增加数据块大小的“行列捆绑”。这些方法使得模型能够在可用DRAM容量的两倍大小的情况下运行，并在与传统加载方法相比，CPU和GPU分别实现4-5倍和20-25倍的推理速度提升。本研究通过结合稀疏感知、上下文自适应加载和面向硬件的设计，为在内存有限的设备上进行有效的LLMs推理铺平了道路。

Dec, 2023

一个量化的大型语言模型在各种智能手机上的性能评估

本研究探讨在各种苹果iPhone型号上进行设备内大型语言模型(LLM)推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的LLM的现有文献进行利用，我们的研究考察了高性能LLM在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果，我们提供了关于设备内推理能力的见解。

Dec, 2023

基于英特尔GPU的高效LLM推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量，在Intel GPU上相对于标准HuggingFace实现，能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。

Dec, 2023

MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制，我们提出了一种名为MobileLLM的强基线网络，它在先前的125M/350M最先进模型上分别获得2.7%/4.3%的准确度提升。此外，我们还提出了一种即时的分块权重共享方法，不增加模型大小且仅有微小的延迟开销。MobileLLM-LS模型进一步提升了0.7%/0.8%的准确度，相较于MobileLLM 125M/350M。此外，MobileLLM模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升，并在API调用任务中表现出接近LLaMA-v2 7B的正确性，突显了小型模型在常见设备使用情景中的能力。

Feb, 2024

MELTing点：语言变形器的移动评估

机器学习中的Transformers引领了一场革命，但由于其运行时要求，不能广泛用于移动设备。该研究通过创建自动化基础设施MELT来评估大型语言模型在移动设备上的执行情况，并对性能、能效和准确性进行了量化。结果表明，移动设备的执行存在性能差异，LLM的执行主要受内存限制。量化可以显著减少内存需求，但会带来一定的准确性损失。同时，作者认为生态系统仍处于初级阶段，并预测NPU加速和框架设备协同设计是实现有效独立执行的最佳选择。

Mar, 2024

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4量化方法以减少反量化开销，以及基于子张量的技术以消除LLM推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎Transformer-Lite。与CPU和GPU的其他引擎相比，我们的引擎在填充速度上实现了超过10倍的加速，并在解码速度上实现了2~3倍的加速。

Mar, 2024

解密用于多样化 LLM 推理用例的平台要求

研究使用 GenZ 工具来探讨大型语言模型的推理性能与各种平台设计参数之间的关系，并提供配置不同工作负载和用例的平台要求，在不同场景下支持 SOTA LLMs 模型的分析，也展示了为支持未来可能超过数万亿参数的 LLMs 所需的硬件能力预测。

Jun, 2024

LLMServingSim：用于大规模LLM推理服务的硬件/软件联合仿真基础设施

本研究解决了现有大语言模型（LLM）推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务，显著提高了仿真速度，并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。

Aug, 2024

基于设备的语言模型：全面评述

本研究针对设备受限环境下运行大型语言模型（LLMs）面临的挑战进行了深入分析，提出了高效架构及压缩技术等创新解决方案。研究发现，通过硬件加速和边缘云协作方式，可以在性能与资源利用之间实现微妙平衡，为未来基于设备的智能计算发展提供了重要指导。重要性在于解决资源限制问题，同时实现个性化和适应性学习。

Aug, 2024