高效的知识蒸馏:利用教师模型洞察力增强小型语言模型
本文研究使用知识蒸馏从BERT模型到各种学生模型(BiLSTM、CNN、BERT-Tiny、BERT-Mini和BERT-Small)对印尼语文本分类和序列标记进行实验研究,提出了效率高的知识蒸馏训练机制,并发现使用BiLSTM和CNN学生模型可以在性能和计算资源方面提供最好的平衡。
Jan, 2022
在知识蒸馏中,我们探索了一个很少被关注的问题:什么时候蒸馏知识?我们提出了模型校准的概念,将教师模型视为不仅提供知识的源头,而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案,可以在教师模型和训练数据之间进行学习,并在自然语言生成的上下文中进行了检验。实证比较表明,硬门控知识蒸馏不仅提高了模型的泛化性能,而且显著降低了模型的校准误差。
Oct, 2022
本文提出了一种基于演员-评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在GLUE数据集上优于常规基线模型。
Feb, 2023
本文介绍一种名为“Distilling step-by-step”的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注/非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用LLM的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习LLM的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括6,684个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于7T数据集,NN模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示NN模型的准确率显著较低(平均28%),然而我们的提炼模型仍然能够比NN模型获得更高12%的准确率。此外,学生模型的参数大小为0.1M至0.02M,相较于原始输出模型大小减小了100倍和10倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023
通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。
Feb, 2024
这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查,将方法分为白盒知识蒸馏和黑盒知识蒸馏,并探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,这篇综述为研究人员提供了有价值的资源,为这一领域的持续进展铺平了道路。
Jul, 2024