Jan, 2025
在资源受限设备上高效部署大型语言模型
Efficient Deployment of Large Language Models on Resource-constrained
Devices
TL;DR本研究针对大型语言模型在资源受限设备上部署时面临的高推理延迟和过高内存需求问题,提出了一种新的联邦学习框架FedSpine。通过结合参数高效微调和结构化剪枝,FedSpine能够在不知道设备计算和通信能力的情况下,自适应调整剪枝比率和LoRA等级,从而提高微调效率和推理准确度。实验结果显示,FedSpine相较于其他基线,能够提高微调速度1.4到6.9倍,同时在相同稀疏度水平下提升最终准确率0.4%到4.5%。