Sep, 2024

利用仅有推理引擎实现资源高效的设备端小型语言模型微调

TL;DR本研究解决了在资源受限的边缘设备上微调大型语言模型(LLMs)的难题。论文提出了一种资源高效的零阶优化方法,并引入了并行随机梯度估计(P-RGE)技术,显著降低了微调所需的时间和内存消耗。实验结果表明,该方法在保留微调精度的同时,提升了运行速度,推动了LLMs在实时设备端应用中的实际部署。