基于设备的语言模型:全面评述
大型语言模型的部署面临一些挑战,云部署方式会有长时间响应、高带宽成本和数据隐私问题。文章探讨了在6G边缘部署语言模型的潜力,介绍了多模态语言模型的关键应用,并提出了6G移动边缘计算的架构。此外,讨论了边缘训练和边缘推理的设计方面,提出了一些有效的技术以促进语言模型的高效部署。
Sep, 2023
LinguaLinked是一种分散、分布式的移动设备上的LLM推理系统,它通过优化模型分配、优化数据传输机制和运行时负载平衡器来提高系统的效率和响应速度。
Dec, 2023
本研究探讨在各种苹果iPhone型号上进行设备内大型语言模型(LLM)推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的LLM的现有文献进行利用,我们的研究考察了高性能LLM在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果,我们提供了关于设备内推理能力的见解。
Dec, 2023
该研究综述了与优化大型语言模型性能和能源效率相关的硬件加速器,涵盖了多种加速器的体系结构、性能指标和能源效率考虑,并为研究人员、工程师和决策者在现实应用中优化大型语言模型的部署提供了有价值的见解。
Jan, 2024
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为MobileLLM的强基线网络,它在先前的125M/350M最先进模型上分别获得2.7%/4.3%的准确度提升。此外,我们还提出了一种即时的分块权重共享方法,不增加模型大小且仅有微小的延迟开销。MobileLLM-LS模型进一步提升了0.7%/0.8%的准确度,相较于MobileLLM 125M/350M。此外,MobileLLM模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升,并在API调用任务中表现出接近LLaMA-v2 7B的正确性,突显了小型模型在常见设备使用情景中的能力。
Feb, 2024
机器学习中的Transformers引领了一场革命,但由于其运行时要求,不能广泛用于移动设备。该研究通过创建自动化基础设施MELT来评估大型语言模型在移动设备上的执行情况,并对性能、能效和准确性进行了量化。结果表明,移动设备的执行存在性能差异,LLM的执行主要受内存限制。量化可以显著减少内存需求,但会带来一定的准确性损失。同时,作者认为生态系统仍处于初级阶段,并预测NPU加速和框架设备协同设计是实现有效独立执行的最佳选择。
Mar, 2024
通过对学习方法、个性化数据使用量、语言模型的类型和大小、压缩方法以及学习时间和目标用例难度之间的权衡进行实证研究,我们找到了一些用于将语言模型部署到资源受限设备上的指导方针。
Jun, 2024
通过使用较少参数和定量化等模型压缩技术,MobileAIBench评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动AI研究和部署。
Jun, 2024
本研究解决了在边缘设备上部署大型语言模型(LLMs)时面临的内存、能量和计算成本的挑战。通过提出一种名为MobileQuant的简单后训练量化方法,本研究首次通过仅使用整数量化来优化激活范围及权重转换,显著降低延迟和能耗,提升了量化的精确度,对移动设备友好,具有重要的应用潜力。
Aug, 2024