Apr, 2025

宝贝,我缩小了语言模型:知识蒸馏方法对性能和可解释性的影响

TL;DR本研究解决了大型语言模型在资源受限环境中应用的挑战,通过知识蒸馏训练小型学生模型。我们提出新的蒸馏方法并进行系统比较,发现这些方法在模型性能和可解释性上均有显著提升,推动了小型语言模型的蒸馏进程,为大规模语言模型技术的更广泛应用奠定基础。