Jun, 2024

BiLD: 大型语言模型蒸馏中的双向对数损失差异

TL;DR本研究探讨了基于对数几率水平的大型语言模型任务特定蒸馏,发现与视觉模型相比,微调后的大型语言模型的对数几率呈现更极端的长尾分布,长尾部分中的噪声对蒸馏性能产生影响。提出了双向对数几率差异损失(BiLD loss)作为解决方案,并通过构建对数几率之间的差异来利用内部对数几率的排序信息。实验结果表明,仅使用前8个对数几率的BiLD损失优于有监督微调(SFT),基本KL损失和其他NLP和CV领域的五种蒸馏方法。