基于设备的语言模型：全面评述

Aug, 2024

On-Device Language Models: A Comprehensive Review

Jiajun Xu, Zhiyuan Li, Wei Chen, Qun Wang, Xin Gao...

TL;DR本研究针对设备受限环境下运行大型语言模型（LLMs）面临的挑战进行了深入分析，提出了高效架构及压缩技术等创新解决方案。研究发现，通过硬件加速和边缘云协作方式，可以在性能与资源利用之间实现微妙平衡，为未来基于设备的智能计算发展提供了重要指导。重要性在于解决资源限制问题，同时实现个性化和适应性学习。

Abstract

The advent of Large Language Models (LLMs) revolutionized natural language processing applications, and running LLMs on edge devices has become increasingly attractive for reasons including reduced latency, data localization, and personalized user experiences. This comprehensive review

发现论文，激发创造

推动大型语言模型走向6G边缘: 愿景、挑战和机遇

大型语言模型的部署面临一些挑战，云部署方式会有长时间响应、高带宽成本和数据隐私问题。文章探讨了在6G边缘部署语言模型的潜力，介绍了多模态语言模型的关键应用，并提出了6G移动边缘计算的架构。此外，讨论了边缘训练和边缘推理的设计方面，提出了一些有效的技术以促进语言模型的高效部署。

Sep, 2023

LinguaLinked：移动设备上的分布式大型语言模型推理系统

LinguaLinked是一种分散、分布式的移动设备上的LLM推理系统，它通过优化模型分配、优化数据传输机制和运行时负载平衡器来提高系统的效率和响应速度。

Dec, 2023

一个量化的大型语言模型在各种智能手机上的性能评估

本研究探讨在各种苹果iPhone型号上进行设备内大型语言模型(LLM)推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的LLM的现有文献进行利用，我们的研究考察了高性能LLM在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果，我们提供了关于设备内推理能力的见解。

Dec, 2023

大型语言模型的硬件加速器调查

该研究综述了与优化大型语言模型性能和能源效率相关的硬件加速器，涵盖了多种加速器的体系结构、性能指标和能源效率考虑，并为研究人员、工程师和决策者在现实应用中优化大型语言模型的部署提供了有价值的见解。

Jan, 2024

MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制，我们提出了一种名为MobileLLM的强基线网络，它在先前的125M/350M最先进模型上分别获得2.7%/4.3%的准确度提升。此外，我们还提出了一种即时的分块权重共享方法，不增加模型大小且仅有微小的延迟开销。MobileLLM-LS模型进一步提升了0.7%/0.8%的准确度，相较于MobileLLM 125M/350M。此外，MobileLLM模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升，并在API调用任务中表现出接近LLaMA-v2 7B的正确性，突显了小型模型在常见设备使用情景中的能力。

Feb, 2024

关于量化大型语言模型的可压缩性

通过应用数据压缩技术来减少数据传输，从而提高在内存受限设备上量化化的大型语言模型推理的速度。

Mar, 2024

MELTing点：语言变形器的移动评估

机器学习中的Transformers引领了一场革命，但由于其运行时要求，不能广泛用于移动设备。该研究通过创建自动化基础设施MELT来评估大型语言模型在移动设备上的执行情况，并对性能、能效和准确性进行了量化。结果表明，移动设备的执行存在性能差异，LLM的执行主要受内存限制。量化可以显著减少内存需求，但会带来一定的准确性损失。同时，作者认为生态系统仍处于初级阶段，并预测NPU加速和框架设备协同设计是实现有效独立执行的最佳选择。

Mar, 2024

在资源受限的边缘设备上部署LLMs的实践指南

通过对学习方法、个性化数据使用量、语言模型的类型和大小、压缩方法以及学习时间和目标用例难度之间的权衡进行实证研究，我们找到了一些用于将语言模型部署到资源受限设备上的指导方针。

Jun, 2024

MobileAIBench: 用于设备上应用场景的LLM和LMM基准测试

通过使用较少参数和定量化等模型压缩技术，MobileAIBench评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动AI研究和部署。

Jun, 2024

移动量化：适用于设备语言模型的移动友好量化

本研究解决了在边缘设备上部署大型语言模型（LLMs）时面临的内存、能量和计算成本的挑战。通过提出一种名为MobileQuant的简单后训练量化方法，本研究首次通过仅使用整数量化来优化激活范围及权重转换，显著降低延迟和能耗，提升了量化的精确度，对移动设备友好，具有重要的应用潜力。

Aug, 2024