Apr, 2024
对大型语言模型的知识蒸馏中库尔巴克-莱布勒散度的重新思考
Rethinking Kullback-Leibler Divergence in Knowledge Distillation for
Large Language Models
TL;DR通过实证和理论证明,逆向Kullback-Leiber(RKL)分散度在大语言模型知识蒸馏中并非寻找模式而是均值寻找,与前向Kullback-Leiber(FKL)优化目标相同,经过足够多的迭代后二者收敛。基于实践约束,提出了一种简单而有效的自适应Kullback-Leiber(AKL)分散度方法,可以根据情况分配权重来结合FKL和RKL,根据评估结果显示,该方法在多个任务上优于基准,并提高生成回答的多样性和质量。