在 LLM 时代重新思考移动 AI 生态系统
机器学习中的 Transformers 引领了一场革命,但由于其运行时要求,不能广泛用于移动设备。该研究通过创建自动化基础设施 MELT 来评估大型语言模型在移动设备上的执行情况,并对性能、能效和准确性进行了量化。结果表明,移动设备的执行存在性能差异,LLM 的执行主要受内存限制。量化可以显著减少内存需求,但会带来一定的准确性损失。同时,作者认为生态系统仍处于初级阶段,并预测 NPU 加速和框架设备协同设计是实现有效独立执行的最佳选择。
Mar, 2024
本文解决了利用大型语言模型(LLMs)和基础模型设计人工智能(AI)本地网络的问题,提出了一种以无线为中心的基础模型架构,其中包括多模态模型,通过神经符号 AI 进行逻辑和数学推理,并展示了 RAG 在 LMMs 中的有效性,以及 LMMs 相对于 vanilla LLMs 在数学问题回答方面表现出的增强的推理能力。
Jan, 2024
通过引入层级分布式的大型语言模型(LLM)架构,提高 LLM 在异构计算平台上的可访问性和可部署性,实现按需访问和定制化服务,并在用户与应用需求之间取得最佳权衡,推动人工智能技术的进步。
Jan, 2024
本文旨在通过预训练大型语言模型及相应的提示技术,实现轻量级、可通用的基于自然语言的手机交互,解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明,针对移动 UI 设计的四项重要建模任务中,我们的方法在不需要专用数据集和训练的情况下,取得了令人满意的竞争成绩。
Sep, 2022
本研究探讨在各种苹果 iPhone 型号上进行设备内大型语言模型 (LLM) 推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的 LLM 的现有文献进行利用,我们的研究考察了高性能 LLM 在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果,我们提供了关于设备内推理能力的见解。
Dec, 2023
将大型语言模型部署在移动设备上,使得所有自然语言处理的能力可在设备上使用;LLM 的重要用例是问答系统,可以提供准确和上下文相关的回答给用户的各种查询,并通过将 Orca-Mini-3B 模型的 6 位量化版本应用在 Galaxy S21 智能手机上,实验结果表明 LLM 推理在交互速度下进行,并能给出高质量的与政治、地理或历史相关的用户查询的答案。
Apr, 2024
通过使用较少参数和定量化等模型压缩技术,MobileAIBench 评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动 AI 研究和部署。
Jun, 2024
AI 领域近年来取得了显著的进展,尤其是基于变压器架构的强大大型语言模型(LLMs)的出现。本文介绍了一种创新的 LLM 推理方法,展望了在无需网络连接的情况下,拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手,而且通过原生代码和模型量化技术的结合,还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力,同时保护了用户的隐私并消除了延迟问题。
Sep, 2023
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为 MobileLLM 的强基线网络,它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外,我们还提出了一种即时的分块权重共享方法,不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度,相较于 MobileLLM 125M/350M。此外,MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升,并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性,突显了小型模型在常见设备使用情景中的能力。
Feb, 2024
大型语言模型已经展示出了超越传统自然语言处理挑战的卓越能力,为生产使用案例创造了机会。为了实现这一目标,出现了构建复合人工智能系统的显著转变,在其中将大型语言模型与包括模型、检索器、数据库和工具在内的广泛软件基础设施集成。本文介绍了一种针对复合人工智能系统在企业环境中进行成本效益和可行性操作的蓝图架构。我们提出的架构旨在与现有的计算和数据基础设施进行无缝集成,通过 “流” 作为关键的编排概念,在代理和其他组件之间协调数据和指令。任务和数据计划分别将任务和数据分解、映射并优化分配给在各自注册表中定义的可用代理和数据源,考虑生产约束条件,如准确度和延迟。
Jun, 2024