MELTing 点：语言变形器的移动评估

Mar, 2024

MELTing 点：语言变形器的移动评估

MELTing point: Mobile Evaluation of Language Transformers

Stefanos Laskaridis, Kleomenis Kateveas, Lorenzo Minto, Hamed Haddadi

TL;DR机器学习中的 Transformers 引领了一场革命，但由于其运行时要求，不能广泛用于移动设备。该研究通过创建自动化基础设施 MELT 来评估大型语言模型在移动设备上的执行情况，并对性能、能效和准确性进行了量化。结果表明，移动设备的执行存在性能差异，LLM 的执行主要受内存限制。量化可以显著减少内存需求，但会带来一定的准确性损失。同时，作者认为生态系统仍处于初级阶段，并预测 NPU 加速和框架设备协同设计是实现有效独立执行的最佳选择。

Abstract

transformers have revolutionized the machine learning landscape, gradually making their way into everyday tasks and equipping our computers with ``sparks of intelligence''. However, their runtime requirements have prevented them from being broadly deployed on mobile. As personal device

transformers mobile execution large language models performance energy efficiency

发现论文，激发创造

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

一个量化的大型语言模型在各种智能手机上的性能评估

本研究探讨在各种苹果 iPhone 型号上进行设备内大型语言模型 (LLM) 推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的 LLM 的现有文献进行利用，我们的研究考察了高性能 LLM 在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果，我们提供了关于设备内推理能力的见解。

Dec, 2023

MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试

通过使用较少参数和定量化等模型压缩技术，MobileAIBench 评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动 AI 研究和部署。

Jun, 2024

在 LLM 时代重新思考移动 AI 生态系统

智能手机已成为承载多种深度学习模型的中心，该研究介绍了一种新的移动人工智能范式，使用协同管理方法在移动操作系统和硬件之间实现一个基础模型，能够为各种移动人工智能任务提供服务。

Aug, 2023

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

革命性的移动互动：在移动设备上支持 30 亿参数的 GPT LLM

AI 领域近年来取得了显著的进展，尤其是基于变压器架构的强大大型语言模型（LLMs）的出现。本文介绍了一种创新的 LLM 推理方法，展望了在无需网络连接的情况下，拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手，而且通过原生代码和模型量化技术的结合，还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力，同时保护了用户的隐私并消除了延迟问题。

Sep, 2023

移植大型语言模型到移动设备以进行问答

将大型语言模型部署在移动设备上，使得所有自然语言处理的能力可在设备上使用；LLM 的重要用例是问答系统，可以提供准确和上下文相关的回答给用户的各种查询，并通过将 Orca-Mini-3B 模型的 6 位量化版本应用在 Galaxy S21 智能手机上，实验结果表明 LLM 推理在交互速度下进行，并能给出高质量的与政治、地理或历史相关的用户查询的答案。

Apr, 2024

边缘设备上的量化 Transformer 语言模型实现

大规模基于 transformer 的模型如 BERT，可以转换为针对资源受限边缘设备优化的 FlatBuffer 格式，用于声誉分析等任务，其性能较好且具有隐私保护特性。

Oct, 2023

迈向基于设备的文本改写代理

使用指令调整的新方法构建了一个移动中心的文本改写模型，通过高质量的无需人工标注的训练数据和启发式强化学习框架提高性能，并通过级联方法将移动重写代理与服务器模型结合，从而在保持显著减小模型尺寸的同时，超越了目前最先进的大型语言模型在文本重写方面的性能。

Aug, 2023

探索变形金刚模型在移动设备上用于自然语言处理的性能和效率

本研究旨在通过研究 Transformers 当前的设备执行状态，构建代表性模型基准，并彻底评估它们在具有不同计算能力的移动设备上的性能，实验结果表明 Transformers 不利于加速器，并指出需要软件和硬件优化才能实现高效部署。

Jun, 2023