Oct, 2024

KD-LoRA:一种结合LoRA与知识蒸馏的高效微调混合方法

TL;DR本文研究了大型语言模型在微调中的高计算和内存需求问题,并提出了一种新颖的混合微调方法KD-LoRA,结合了低秩适应(LoRA)和知识蒸馏(KD)。研究表明,KD-LoRA在GLUE基准上保持了98%的性能,同时比LoRA更紧凑,显著减少了30%的GPU内存使用和推理时间。