Apr, 2024

对大型语言模型的知识蒸馏中库尔巴克 - 莱布勒散度的重新思考

TL;DR通过实证和理论证明,逆向 Kullback-Leiber(RKL)分散度在大语言模型知识蒸馏中并非寻找模式而是均值寻找,与前向 Kullback-Leiber(FKL)优化目标相同,经过足够多的迭代后二者收敛。基于实践约束,提出了一种简单而有效的自适应 Kullback-Leiber(AKL)分散度方法,可以根据情况分配权重来结合 FKL 和 RKL,根据评估结果显示,该方法在多个任务上优于基准,并提高生成回答的多样性和质量。