本文研究了一种改进模型压缩方法,通过强化学习动态调整知识蒸馏中教师模型的权重,从而提高了学生模型性能,适用于自然语言处理任务。
Dec, 2020
深度神经网络通过知识蒸馏的模型压缩技术能够有效地在大型和小型模型之间实现信息转移,本研究通过实验探究了蒸馏过程对于信息损失的影响,并提出了一种优化配置方法。
Nov, 2023
使用简单的知识蒸馏技术可以显著缩小教师模型与学生模型之间的性能差距,通过使用预先训练的教师模型的判别分类器进行学生推断,并通过特征对齐训练学生编码器来实现与教师相同的性能。添加新的投影仪使学生编码器与教师分类器匹配,从而将这种技术应用于各种教师和学生架构下达到良好的压缩率与状态的最佳结果。
Mar, 2022
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
我们提出了一种新颖的知识蒸馏方法 MLKD-BERT,在教师 - 学生框架中蒸馏多层级知识。对 GLUE 基准和提取型问答任务的大量实验表明,我们的方法在 BERT 上胜过了最先进的知识蒸馏方法。此外,MLKD-BERT 可以灵活设置学生注意力头数,能够显著减少推理时间并且性能损失很小。
Jul, 2024
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
Jan, 2023
深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。
Oct, 2023
本文提出了一种高效的知识蒸馏方法,能够压缩 BERT 模型而无需加载教师模型,并能够实现训练加速 2.7x ~ 3.4x。通过将 BERT 的隐藏知识分为深度、长度和宽度三个维度,该方法能够提取和蒸馏关键的隐藏状态知识,从而实现与大量蒸馏相同的性能提升。
Jun, 2021
本文提出了一种多教师知识蒸馏框架 MT-BERT,可以从多个教师 PLMs 中训练高质量的学生模型,并在三个基准数据集上验证了其压缩 PLMs 的有效性。
研究自然语言生成(NLG)中的知识蒸馏技术优化模型并生成具体的文本任务,提出伪目标(PT)数据增强方法并应用于双方产生的多个 PT 的词级 KD,从而有效地压缩模型。
May, 2023