Sep, 2024

高效的知识蒸馏:利用教师模型洞察力增强小型语言模型

TL;DR本研究解决了小型语言模型在实际应用中面临的性能提升问题。我们提出了一种简单有效的知识蒸馏方法,通过分析教师模型的重要令牌,帮助学生模型更好地学习,从而显著提高了小型模型的性能,尤其在含有标签的多项选择题数据集上,68%的情况下提取的令牌是答案的组成部分。