Oct, 2024

QEFT:大语言模型高效微调的量化技术

TL;DR本研究解决了大语言模型微调过程中的速度、内存消耗和模型质量等多方面优化的挑战。我们提出了一种名为QEFT的新型轻量化技术,能够加速推理和微调,保持高灵活性和良好的硬件兼容性,同时在资源使用上具有优势。实验证明,QEFT在质量和灵活性方面与全精度参数高效微调相当。