本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析,提出了批级和全局级别的样本选择策略来优化知识蒸馏,实验结果表明,该方法在 WMT'14 英语 -> 德语和 WMT'19 中文 -> 英语机器翻译任务中提高了机器翻译的 BLEU 得分。
May, 2021
本文使用知识蒸馏方法对多任务深度神经网络进行优化,提供了解决集成大型神经网络问题的方法,并在 GLUE 基准测试中取得了显著的成果。
Apr, 2019
本研究提出一种新颖的神经机器翻译知识蒸馏技术,通过层级监督,将大型准确的老师网络的知识注入到小巧的学生网络中,以适应边缘设备上内存约束的低资源环境。实验表明,采用该技术,学生网络的参数数量减少了 50%,仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语 - 英语、土耳其语 - 英语和英语 - 德语方向的翻译实验结果也得到了验证。
Oct, 2020
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
研究多语言神经机器翻译中的灾难性遗忘问题,并提出基于知识蒸馏的生命周期学习方法,以应对其面临的问题。实验结果显示,该方法能够更好地巩固以前的知识并显著减轻问题。
Dec, 2022
本文探讨了如何通过知识蒸馏来压缩 MNMT 模型,发现这是一项具有挑战性的任务,并提出了一些设计思考和优化方案。
Apr, 2023
本文介绍了一种简单的方法,使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译,基于经验发现,提出了两种知识蒸馏方法,以进一步增强多语言机器翻译性能。我们的实验表明,在零 - shot 翻译方案中,在低资源语言对中减轻了糟糕的性能,并在一些非英语语言对之间实现了可靠性能。
Apr, 2020
本文提出一种改进机器翻译模型的方法,即将 NN search 前置,并通过最近邻知识蒸馏(NN-KD)训练基本 NMT 模型直接学习 NN 知识,可以更好地解决机器翻译中的过度纠正问题,并在保持训练和解码速度不变的情况下,实现了比 NN-MT 等现有方法更好的结果。
May, 2022
本文研究了一种改进模型压缩方法,通过强化学习动态调整知识蒸馏中教师模型的权重,从而提高了学生模型性能,适用于自然语言处理任务。
Dec, 2020