基于知识蒸馏的多语言神经机器翻译的终身学习
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
本文介绍了在神经机器翻译中应用知识蒸馏技术,包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上,我们的学生模型在运行速度增加的同时,表现损失不大。此外,通过权重剪枝,还极大地减小了模型的参数数量。
Jun, 2016
提出了一种名为 Lifelong Language Knowledge Distillation(L2KD)的方法来解决流式任务(stream of different tasks) LLL 中的性能降低问题,通过一个教师模型来将新任务的知识通过知识蒸馏的方式传递给现有的 LLL 模型,从而使得 LLL 模型可以更好地适应新任务,同时保留先前学习到的知识。该方法的实验证明,L2KD 在 LLL 任务的顺序生成和文本分类方面比之前的最先进模型有着不俗的表现,并且在与 multi-task 模型性能对比方面,L2KD 均获得了显著提升。
Oct, 2020
本文介绍了一种简单的方法,使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译,基于经验发现,提出了两种知识蒸馏方法,以进一步增强多语言机器翻译性能。我们的实验表明,在零 - shot 翻译方案中,在低资源语言对中减轻了糟糕的性能,并在一些非英语语言对之间实现了可靠性能。
Apr, 2020
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
本文使用知识蒸馏方法对多任务深度神经网络进行优化,提供了解决集成大型神经网络问题的方法,并在 GLUE 基准测试中取得了显著的成果。
Apr, 2019
该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析,提出了批级和全局级别的样本选择策略来优化知识蒸馏,实验结果表明,该方法在 WMT'14 英语 -> 德语和 WMT'19 中文 -> 英语机器翻译任务中提高了机器翻译的 BLEU 得分。
May, 2021
论文介绍了基于知识蒸馏的神经机器翻译方法,并探讨了如何快速训练单个 NMT 系统,以获得来自多个教师网络的同等翻译质量,通过基于教师网络的数据过滤方法实现训练加速和翻译质量的提高。
Feb, 2017
本研究提出一种新颖的神经机器翻译知识蒸馏技术,通过层级监督,将大型准确的老师网络的知识注入到小巧的学生网络中,以适应边缘设备上内存约束的低资源环境。实验表明,采用该技术,学生网络的参数数量减少了 50%,仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语 - 英语、土耳其语 - 英语和英语 - 德语方向的翻译实验结果也得到了验证。
Oct, 2020