MiniPLM:用于预训练语言模型的知识蒸馏
本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。
Jun, 2021
本文介绍一种名为“Distilling step-by-step”的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注/非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
本文提出了一种名为MiniLLM的方法,该方法利用Kullback-Leibler散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了MiniLLM模型的性能表现更佳。
Jun, 2023
本研究提出了一种方法,将大型语言模型(LLMs)的知识提炼为一个更小、更高效且准确的神经网络,以实现在资源受限设备上部署这些模型的挑战。我们的方法包括使用LLM的预测概率训练较小的学生模型,作为教师模型,通过专门设计的损失函数来学习LLM的输出概率,确保学生模型能够准确模仿教师模型的性能。通过对包括6,684个学生撰写的科学问题回答及其他数据集的测试,我们将性能与原始神经网络(NN)模型进行了比较,结果显示对于7T数据集,NN模型和提炼的学生模型的准确率与教师模型相当;然而,其他数据集显示NN模型的准确率显著较低(平均28%),然而我们的提炼模型仍然能够比NN模型获得更高12%的准确率。此外,学生模型的参数大小为0.1M至0.02M,相较于原始输出模型大小减小了100倍和10倍。该研究的重要性在于其为自动评分在典型教育环境中的运用提供了潜力。
Dec, 2023
DistiLLM是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。
Feb, 2024
通过知识蒸馏,从多个大型教师语言模型中学习小型学生语言模型TinyLLM,以解决当前方法存在的知识多样性有限和缺乏丰富的上下文信息等问题,并通过引入上下文示例生成器和 teacher-forcing 链式推理策略来确保合理的推理基于适当情境,从而在两个推理任务的六个数据集上的广泛实验中展示了 TinyLLM 方法的优越性,结果表明尽管模型尺寸较小,但 TinyLLM 可显著优于大型教师语言模型。
Feb, 2024
相对于基于标准语言模型(LM)的从头开始预训练,知识蒸馏(KD)需要额外进行一次前向传递,通常所用的教师模型大大超过目标学生模型。本研究比较了从头开始预训练与几种KD策略在计算资源和预训练数据方面的表现,结果发现虽然从头开始预训练与固定计算资源下的普通KD相媲美,但更复杂的KD策略,即TinyBERT和MiniLM,优于从头开始预训练。
Apr, 2024
本研究解决了小型语言模型在实际应用中面临的性能提升问题。我们提出了一种简单有效的知识蒸馏方法,通过分析教师模型的重要令牌,帮助学生模型更好地学习,从而显著提高了小型模型的性能,尤其在含有标签的多项选择题数据集上,68%的情况下提取的令牌是答案的组成部分。
Sep, 2024
本文解决了大型语言模型(LLMs)知识蒸馏在预训练阶段的应用问题。提出了名为预训练蒸馏(PD)的新方法,并通过系统的设计空间探索,发现更有效的配置,尤其是较大的学生模型在预训练蒸馏中受益更多。此研究为未来的预训练蒸馏实践提供了指导。
Oct, 2024
本研究解决了预训练语言模型知识蒸馏中的效率、灵活性和有效性问题。通过MiniPLM框架,采用离线教师模型推理,优化了训练数据分布,提高了学生模型的知识获取能力。实验表明,MiniPLM在多个下游任务上显著提升了学生模型的性能,提高了语言建模能力,并降低了预训练计算需求。
Oct, 2024