LinguaLinked:移动设备上的分布式大型语言模型推理系统
本研究探讨了大型语言模型在成本高效的推理和微调方面的方法,并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议,用于自动分配设备以最大化系统总吞吐量,并展示了这些算法在 Petals 中的应用,该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。
Dec, 2023
本研究探讨在各种苹果 iPhone 型号上进行设备内大型语言模型 (LLM) 推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的 LLM 的现有文献进行利用,我们的研究考察了高性能 LLM 在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果,我们提供了关于设备内推理能力的见解。
Dec, 2023
通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制,我们提出了一种名为 MobileLLM 的强基线网络,它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外,我们还提出了一种即时的分块权重共享方法,不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度,相较于 MobileLLM 125M/350M。此外,MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升,并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性,突显了小型模型在常见设备使用情景中的能力。
Feb, 2024
通过将轻量级机器学习模型部署到边缘设备上,实时分析本地数据流,如网络流量和系统日志,分发计算任务到边缘服务器提高响应性,提供更好的威胁检测和缓解措施,提高网络边缘的安全性。
May, 2024
将大型语言模型部署在移动设备上,使得所有自然语言处理的能力可在设备上使用;LLM 的重要用例是问答系统,可以提供准确和上下文相关的回答给用户的各种查询,并通过将 Orca-Mini-3B 模型的 6 位量化版本应用在 Galaxy S21 智能手机上,实验结果表明 LLM 推理在交互速度下进行,并能给出高质量的与政治、地理或历史相关的用户查询的答案。
Apr, 2024
FwdLLM 是一种创新的 FL 协议,通过无需执行误差反向传播训练方法的方式,在手机设备上实现了更好的内存效率和时间效率,具有比传统方法更快的收敛速度和更小的内存占用。
Aug, 2023
本研究提出一种混合推理方法,结合大型语言模型和小型模型的优势,通过路由器根据预测的查询难度和期望的质量水平将查询分配给相应的模型,以在成本节约和保持质量之间进行动态调整,实验结果表明能够减少高质量模型的调用次数达到 40%,且不影响响应质量。
Apr, 2024
通过使用较少参数和定量化等模型压缩技术,MobileAIBench 评估了多尺寸、定量化水平和任务,并在真实设备上测量延迟和资源消耗,旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察,加速移动 AI 研究和部署。
Jun, 2024
智能手机已成为承载多种深度学习模型的中心,该研究介绍了一种新的移动人工智能范式,使用协同管理方法在移动操作系统和硬件之间实现一个基础模型,能够为各种移动人工智能任务提供服务。
Aug, 2023