神经机器翻译的集成蒸馏

Feb, 2017

Ensemble Distillation for Neural Machine Translation

Markus Freitag, Yaser Al-Onaizan, Baskaran Sankaran

TL;DR论文介绍了基于知识蒸馏的神经机器翻译方法，并探讨了如何快速训练单个 NMT 系统，以获得来自多个教师网络的同等翻译质量，通过基于教师网络的数据过滤方法实现训练加速和翻译质量的提高。

Abstract

knowledge distillation describes a method for training a student network to perform better by learning from a stronger teacher network. Translating a sentence with an neural machine translation (NMT) engine is ti

knowledge distillation neural machine translation ensemble bleu teacher network data filtering

发现论文，激发创造

序列级知识蒸馏

本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Jun, 2016

神经机器翻译的选择性知识蒸馏

该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析，提出了批级和全局级别的样本选择策略来优化知识蒸馏，实验结果表明，该方法在 WMT'14 英语 -> 德语和 WMT'19 中文 -> 英语机器翻译任务中提高了机器翻译的 BLEU 得分。

May, 2021

通过知识蒸馏提高用于自然语言理解的多任务深度神经网络

本文使用知识蒸馏方法对多任务深度神经网络进行优化，提供了解决集成大型神经网络问题的方法，并在 GLUE 基准测试中取得了显著的成果。

Apr, 2019

为何跳过合并：一种用于中间层的简单知识蒸馏技术

本研究提出一种新颖的神经机器翻译知识蒸馏技术，通过层级监督，将大型准确的老师网络的知识注入到小巧的学生网络中，以适应边缘设备上内存约束的低资源环境。实验表明，采用该技术，学生网络的参数数量减少了 50％，仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语 - 英语、土耳其语 - 英语和英语 - 德语方向的翻译实验结果也得到了验证。

Oct, 2020

多语言神经机器翻译与知识蒸馏

本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性，并在数据集上进行了实验，结果表明该方法可以通过训练单独的模型（即老师）来训练多语言模型，这使得一个模型即可具备处理多达 44 种不同语言的能力（且其准确性与单独模型相当甚至更优）。

Feb, 2019

基于知识蒸馏的多语言神经机器翻译的终身学习

研究多语言神经机器翻译中的灾难性遗忘问题，并提出基于知识蒸馏的生命周期学习方法，以应对其面临的问题。实验结果显示，该方法能够更好地巩固以前的知识并显著减轻问题。

Dec, 2022

利用知识蒸馏压缩多语言神经机器翻译模型的实证研究

本文探讨了如何通过知识蒸馏来压缩 MNMT 模型，发现这是一项具有挑战性的任务，并提出了一些设计思考和优化方案。

Apr, 2023

多语言无监督神经机器翻译的知识蒸馏

本文介绍了一种简单的方法，使用单个编码器和解码器之间的翻译来在 13 种语言之间翻译，基于经验发现，提出了两种知识蒸馏方法，以进一步增强多语言机器翻译性能。我们的实验表明，在零 - shot 翻译方案中，在低资源语言对中减轻了糟糕的性能，并在一些非英语语言对之间实现了可靠性能。

Apr, 2020

神经机器翻译最近邻知识蒸馏

本文提出一种改进机器翻译模型的方法，即将 NN search 前置，并通过最近邻知识蒸馏（NN-KD）训练基本 NMT 模型直接学习 NN 知识，可以更好地解决机器翻译中的过度纠正问题，并在保持训练和解码速度不变的情况下，实现了比 NN-MT 等现有方法更好的结果。

May, 2022

强化多教师选择的知识蒸馏

本文研究了一种改进模型压缩方法，通过强化学习动态调整知识蒸馏中教师模型的权重，从而提高了学生模型性能，适用于自然语言处理任务。

Dec, 2020