在资源受限的边缘设备上部署 LLMs 的实践指南
通过引入层级分布式的大型语言模型(LLM)架构,提高 LLM 在异构计算平台上的可访问性和可部署性,实现按需访问和定制化服务,并在用户与应用需求之间取得最佳权衡,推动人工智能技术的进步。
Jan, 2024
大型语言模型的部署面临一些挑战,云部署方式会有长时间响应、高带宽成本和数据隐私问题。文章探讨了在 6G 边缘部署语言模型的潜力,介绍了多模态语言模型的关键应用,并提出了 6G 移动边缘计算的架构。此外,讨论了边缘训练和边缘推理的设计方面,提出了一些有效的技术以促进语言模型的高效部署。
Sep, 2023
该研究综述了针对大型语言模型(LLMs)的挑战以及提高系统效率的最新进展和研究方向,包括算法级加速技术、LLM 硬件与软件协同设计策略、LLMs 加速器编译方法以及利用 LLMs 辅助电路设计的方法。通过这些工作,旨在为 LLMs 在各种应用中实现更高效、可扩展的部署铺平道路。
Jun, 2024
本研究探讨了大型语言模型在成本高效的推理和微调方面的方法,并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议,用于自动分配设备以最大化系统总吞吐量,并展示了这些算法在 Petals 中的应用,该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。
Dec, 2023
使用无导数优化技术,实现在内存受限的移动设备上进行大型语言模型的本地微调,为资源受限的设备开启个性化语言模型,同时保护数据隐私。
Jul, 2024
通过将轻量级机器学习模型部署到边缘设备上,实时分析本地数据流,如网络流量和系统日志,分发计算任务到边缘服务器提高响应性,提供更好的威胁检测和缓解措施,提高网络边缘的安全性。
May, 2024
通过文献综述和第一手实验,本文研究了大型语言模型(LLMs)的潜力。尽管 LLMs 具有成本效益和高效性等优点,但也存在着诸如提示调优、偏见和主观性等挑战。该研究通过利用 LLMs 进行定性分析的实验提供了新的见解,强调了成功和限制。此外,本文还讨论了缓解挑战的策略,如优化提示技术和利用人类专业知识。我们的工作旨在将 LLMs 有机地融入人机交互数据工作,并积极促进其负责任的应用,以此回应关于 LLMs 在研究中负责任应用的持续对话。
Apr, 2024
通过提出一种新的框架来选择和存储在线上最具代表性的数据,本文解决了在设备上进行个性化的大型语言模型优化的问题,考虑了稀疏标注和有限的设备存储空间。
Nov, 2023
本研究探讨了如何从零开始构建多个特定领域的多语言语言模型,并测试了它们在法律语料库上的效果。同时,研究者还讨论了模型的压缩方法,以减少计算资源和经济成本并保持模型性能。
Oct, 2022