本文提出了一种名为 NewsBERT 的基于预训练语言模型的知识蒸馏方法,该方法利用知识蒸馏技术将大型 PLM 压缩为更小的模型,以提高新闻智能应用的性能,并且在两个真实世界的数据集上进行了广泛的实验。
Feb, 2021
本文研究了一种改进模型压缩方法,通过强化学习动态调整知识蒸馏中教师模型的权重,从而提高了学生模型性能,适用于自然语言处理任务。
Dec, 2020
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。
Oct, 2023
本研究提出了病人知识蒸馏方法,将原始大模型(老师)压缩成同样有效的轻型浅层网络(学生),以缓解大规模模型训练中的计算资源需求,并在多个 NLP 任务中获得改进的结果和培养效率的显著提高。
Aug, 2019
本文介绍了一种针对大型语言模型的任务无关的零样本评估蒸馏方法,该方法使用截断版本的大模型作为初始化,并使用语言建模目标继续预训练该模型,已从根本上解决了对任务特定学习数据的依赖。本方法可以在无法将教师和学生都放入 GPU 内存的情况下将模型尺寸有效减少 50%,并在 13 个零样本端到端任务上达到了与基准蒸馏方法相当或超越的性能和准确性,计算效率提高了 1.5 倍。
May, 2023
本文介绍了一种基于 Two-stage Multi-teacher Knowledge Distillation (TMKD) 的深度预训练与微调、模型压缩及知识蒸馏方法,以提升网络问答系统的效率。实验结果表明,该方法在保证准确性的同时,大幅提升模型推理速度。
Oct, 2019
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
我们提出了基于多教师多层知识蒸馏学习框架的自适应学习方法,该方法通过将每个教师与潜在表示相关联,自适应地学习实例级教师重要性权重,从而获取集成的高级知识,并通过多组提示策略从多个教师处汇集中间级知识。实验表明,该方法确保学生比强竞争者取得了更好的性能。
Mar, 2021