封闭源语言模型的知识蒸馏

Jan, 2024

Knowledge Distillation for Closed-Source Language Models

Hongzhan Chen, Xiaojun Quan, Hehong Chen, Ming Yan, Ji Zhang

TL;DR在这篇论文中，我们提出了一种基于贝叶斯估计框架的方法，通过估计闭源语言模型的输出分布来执行传统的知识蒸馏，实验结果表明我们的方法超过了直接在闭源语言模型生成数据上微调的当前模型的性能。

Abstract

closed-source language models such as GPT-4 have achieved remarkable performance. Many recent studies focus on enhancing the capabilities of smaller models through knowledge distillation from →

closed-source language models knowledge distillation output distributions bayesian estimation framework experimental results

发现论文，激发创造

通过知识选择改进预训练语言模型的知识蒸馏

本文提出了一种基于演员 - 评论家方法的知识蒸馏框架，旨在从教师模型中选择适当的知识来训练学生模型，实验结果表明该方法在 GLUE 数据集上优于常规基线模型。

Feb, 2023

大型语言模型的知识蒸馏调查

知识蒸馏（KD）机制在大型语言模型（LLM）中起着关键作用，将专有的 GPT-4 等模型的先进功能和细腻理解传输到像 LLaMA 和 Mistral 这样的开源模型。此次调查详细讨论了 KD 机制、特定认知能力增强以及其在不同领域的实际应用，展示了数据增广（DA）和 KD 之间的相互关系，旨在弥合专有和开源 LLM 之间的差距，促进更具可访问性、高效性和可持续性的人工智能解决方案。

Feb, 2024

硬门知识蒸馏 —— 利用校准实现强韧可靠的语言模型

在知识蒸馏中，我们探索了一个很少被关注的问题：什么时候蒸馏知识？我们提出了模型校准的概念，将教师模型视为不仅提供知识的源头，而且作为检测学生模型失调的一个标尺。这种新颖的观点导致了一个硬门控知识蒸馏方案，可以在教师模型和训练数据之间进行学习，并在自然语言生成的上下文中进行了检验。实证比较表明，硬门控知识蒸馏不仅提高了模型的泛化性能，而且显著降低了模型的校准误差。

Oct, 2022

大型语言模型的知识蒸馏

本文提出了一种名为 MiniLLM 的方法，该方法利用 Kullback-Leibler 散度，会防止学生模型过度估计教师分布的低概率区域，实现了从生成式语言模型中提取出更小的语言模型，该方法在指令遵循情况下进行了广泛的实验，证明了 MiniLLM 模型的性能表现更佳。

Jun, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

自知力蒸馏在自然语言处理中

本文提出一种基于深度学习模型自身的软目标概率的自我知识蒸馏方法，在两种基本的 NLP 任务（语言模型和神经机器翻译）上部署实验，并表明了该方法的性能提高。

Aug, 2019

符号知识蒸馏：从通用语言模型到常识模型

研究一个新的框架，基于 Symbolic Knowledge Distillation，使用通用语言模型自动化地从 ATOMIC 资源中筛选高质量因果常识，并创造一种新的常识模型，其大小只有原始模型的 1/100，但功能优于其老师模型。

Oct, 2021

基于伪目标训练的语言生成知识蒸馏系统研究

研究自然语言生成（NLG）中的知识蒸馏技术优化模型并生成具体的文本任务，提出伪目标（PT）数据增强方法并应用于双方产生的多个 PT 的词级 KD，从而有效地压缩模型。

May, 2023

从内部表示进行知识蒸馏

本文提出了通过知识蒸馏从内部表示来压缩 BERT 这样的大型模型，并阐述了两种从内部表示中提取知识的方法和不同算法的实验。结论是，与仅使用软标签蒸馏相比，从内部表示来蒸馏是更强大的方法。

Oct, 2019

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019