在资源受限的边缘设备上部署 LLMs 的实践指南

Jun, 2024

在资源受限的边缘设备上部署 LLMs 的实践指南

Empirical Guidelines for Deploying LLMs onto Resource-constrained Edge Devices

Ruiyang Qin, Dancheng Liu, Zheyu Yan, Zhaoxuan Tan, Zixuan Pan...

TL;DR通过对学习方法、个性化数据使用量、语言模型的类型和大小、压缩方法以及学习时间和目标用例难度之间的权衡进行实证研究，我们找到了一些用于将语言模型部署到资源受限设备上的指导方针。

Abstract

The scaling laws have become the de facto guidelines for designing large language models (LLMs), but they were studied under the assumption of unlimited computing resources for both training and inference. As LLMs are increasingly used as personalized intelligent assistants, their

scaling laws large language models customization resource-constrained edge devices learning efficiency

发现论文，激发创造

基于需求定制的 LMLs 服务

通过引入层级分布式的大型语言模型（LLM）架构，提高 LLM 在异构计算平台上的可访问性和可部署性，实现按需访问和定制化服务，并在用户与应用需求之间取得最佳权衡，推动人工智能技术的进步。

Jan, 2024

推动大型语言模型走向 6G 边缘：愿景、挑战和机遇

大型语言模型的部署面临一些挑战，云部署方式会有长时间响应、高带宽成本和数据隐私问题。文章探讨了在 6G 边缘部署语言模型的潜力，介绍了多模态语言模型的关键应用，并提出了 6G 移动边缘计算的架构。此外，讨论了边缘训练和边缘推理的设计方面，提出了一些有效的技术以促进语言模型的高效部署。

Sep, 2023

LLM 加速、优化和应用的新解决方案

该研究综述了针对大型语言模型（LLMs）的挑战以及提高系统效率的最新进展和研究方向，包括算法级加速技术、LLM 硬件与软件协同设计策略、LLMs 加速器编译方法以及利用 LLMs 辅助电路设计的方法。通过这些工作，旨在为 LLMs 在各种应用中实现更高效、可扩展的部署铺平道路。

Jun, 2024

超越效率：资源高效的大型语言模型的系统调查

大型语言模型（LLMs）的资源效率调查，系统地介绍了提高 LLMs 资源效率的各种技术，包括优化策略、评估指标和可持续发展。

Jan, 2024

互联网上大规模语言模型的分布式推理和微调

本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议，用于自动分配设备以最大化系统总吞吐量，并展示了这些算法在 Petals 中的应用，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

Dec, 2023

PocketLLM: 个性化 LLM 模型的设备端微调

使用无导数优化技术，实现在内存受限的移动设备上进行大型语言模型的本地微调，为资源受限的设备开启个性化语言模型，同时保护数据隐私。

Jul, 2024

边缘设备的分布式威胁情报：基于大型语言模型的方法

通过将轻量级机器学习模型部署到边缘设备上，实时分析本地数据流，如网络流量和系统日志，分发计算任务到边缘服务器提高响应性，提供更好的威胁检测和缓解措施，提高网络边缘的安全性。

May, 2024

由学徒到研究助理：大型语言模型推动研究

通过文献综述和第一手实验，本文研究了大型语言模型（LLMs）的潜力。尽管 LLMs 具有成本效益和高效性等优点，但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解，强调了成功和限制。此外，本文还讨论了缓解挑战的策略，如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作，并积极促进其负责任的应用，以此回应关于 LLMs 在研究中负责任应用的持续对话。

Apr, 2024

通过自监督的数据选择和合成实现设备端大规模语言模型个性化训练

通过提出一种新的框架来选择和存储在线上最具代表性的数据，本文解决了在设备上进行个性化的大型语言模型优化的问题，考虑了稀疏标注和有限的设备存储空间。

Nov, 2023

法律科技开放日记：在巨型语言模型时代开发和部署轻量级模型的经验教训

本研究探讨了如何从零开始构建多个特定领域的多语言语言模型，并测试了它们在法律语料库上的效果。同时，研究者还讨论了模型的压缩方法，以减少计算资源和经济成本并保持模型性能。

Oct, 2022