BERT 模型压缩的患者知识蒸馏

EMNLPAug, 2019

Patient Knowledge Distillation for BERT Model Compression

Siqi Sun, Yu Cheng, Zhe Gan, Jingjing Liu

TL;DR本研究提出了病人知识蒸馏方法，将原始大模型（老师）压缩成同样有效的轻型浅层网络（学生），以缓解大规模模型训练中的计算资源需求，并在多个 NLP 任务中获得改进的结果和培养效率的显著提高。

Abstract

pre-trained language models such as BERT have proven to be highly effective for natural language processing (NLP) tasks. However, the high demand for computing resources in training such models hinders their appl

pre-trained language models knowledge distillation nlp tasks computing resources training efficiency

发现论文，激发创造

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020

知識蒸餾中的遺失

深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移，本研究通过实验探究了蒸馏过程对于信息损失的影响，并提出了一种优化配置方法。

Nov, 2023

重复使用教师分类器的知识蒸馏

使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距，通过使用预先训练的教师模型的判别分类器进行学生推断，并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配，从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。

Mar, 2022

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

MLKD-BERT：预训练语言模型的多层知识蒸馏

我们提出了一种新颖的知识蒸馏方法 MLKD-BERT，在教师 - 学生框架中蒸馏多层级知识。对 GLUE 基准和提取型问答任务的大量实验表明，我们的方法在 BERT 上胜过了最先进的知识蒸馏方法。此外，MLKD-BERT 可以灵活设置学生注意力头数，能够显著减少推理时间并且性能损失很小。

Jul, 2024

利用神经网络中的反向传播知识改进知识蒸馏

该论文提出了一种新的知识蒸馏方法，通过在教师模型与学生模型差异较大的地方提取知识，在生成新的辅助样本的过程中改善学生模型的性能，从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。

Jan, 2023

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

边际效用递减：探究 BERT 知识蒸馏的最少知识要求

本文提出了一种高效的知识蒸馏方法，能够压缩 BERT 模型而无需加载教师模型，并能够实现训练加速 2.7x ~ 3.4x。通过将 BERT 的隐藏知识分为深度、长度和宽度三个维度，该方法能够提取和蒸馏关键的隐藏状态知识，从而实现与大量蒸馏相同的性能提升。

Jun, 2021

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

基于伪目标训练的语言生成知识蒸馏系统研究

研究自然语言生成（NLG）中的知识蒸馏技术优化模型并生成具体的文本任务，提出伪目标（PT）数据增强方法并应用于双方产生的多个 PT 的词级 KD，从而有效地压缩模型。

May, 2023