句级别还是词级别?关于知识蒸馏的综合研究
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
知识蒸馏是一种模型压缩和性能提升的技术,在神经机器翻译领域取得了显著进展。本研究通过深入调查学生模型容量、数据复杂性和解码策略在单词级和序列级蒸馏中的相互作用,验证了有关这些因素对知识蒸馏影响的假设,同时提出了一种新颖的优化蒸馏方法,实现了最先进的翻译性能,推动了神经机器翻译领域的发展。
Dec, 2023
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和 DynaBERT 等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
知识蒸馏是一种将深度神经网络的知识转移到更小更快的神经网络中的方法,近期变体包括教学助理蒸馏、课程蒸馏、遮罩蒸馏和解耦蒸馏等,致力于通过引入额外的组件或改变学习过程来提高知识蒸馏的性能。
Apr, 2023
该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析,提出了批级和全局级别的样本选择策略来优化知识蒸馏,实验结果表明,该方法在 WMT'14 英语 -> 德语和 WMT'19 中文 -> 英语机器翻译任务中提高了机器翻译的 BLEU 得分。
May, 2021
本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019