序列级知识蒸馏

Jun, 2016

Sequence-Level Knowledge Distillation

Yoon Kim, Alexander M. Rush

TL;DR本文介绍了在神经机器翻译中应用知识蒸馏技术，包括传统的单词级别预测和两种新的序列级知识蒸馏模型。在现有最优模型的基础上，我们的学生模型在运行速度增加的同时，表现损失不大。此外，通过权重剪枝，还极大地减小了模型的参数数量。

Abstract

neural machine translation (NMT) offers a novel alternative formulation of translation that is potentially simpler than statistical approaches. However to reach competitive performance, NMT models need to be exce

发现论文，激发创造

非自回归机器翻译中的知识蒸馏理解

本文通过实验发现，知识蒸馏可以降低数据集的复杂度，帮助非自回归机器翻译模型 NART 更好地建模输出的变化，提高翻译质量，并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能，达到了最先进的性能水平。

Nov, 2019

为何跳过合并：一种用于中间层的简单知识蒸馏技术

本研究提出一种新颖的神经机器翻译知识蒸馏技术，通过层级监督，将大型准确的老师网络的知识注入到小巧的学生网络中，以适应边缘设备上内存约束的低资源环境。实验表明，采用该技术，学生网络的参数数量减少了50％，仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语-英语、土耳其语-英语和英语-德语方向的翻译实验结果也得到了验证。

Oct, 2020

神经机器翻译的选择性知识蒸馏

该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析，提出了批级和全局级别的样本选择策略来优化知识蒸馏，实验结果表明，该方法在 WMT'14 英语->德语和 WMT'19 中文->英语机器翻译任务中提高了机器翻译的 BLEU 得分。

May, 2021

神经机器翻译最近邻知识蒸馏

本文提出一种改进机器翻译模型的方法，即将 NN search 前置，并通过最近邻知识蒸馏（NN-KD）训练基本 NMT 模型直接学习NN知识，可以更好地解决机器翻译中的过度纠正问题，并在保持训练和解码速度不变的情况下，实现了比NN-MT等现有方法更好的结果。

May, 2022

基于知识蒸馏的多语言神经机器翻译的终身学习

研究多语言神经机器翻译中的灾难性遗忘问题，并提出基于知识蒸馏的生命周期学习方法，以应对其面临的问题。实验结果显示，该方法能够更好地巩固以前的知识并显著减轻问题。

Dec, 2022

非自回归神经机器翻译的选择性知识蒸馏

本文提出了一种选择性知识蒸馏技术，通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标，并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能，在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明，我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡，取得了出色的性能。进一步的分析表明，只通过 5% 的原始翻译数据，就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。

Mar, 2023

利用知识蒸馏压缩多语言神经机器翻译模型的实证研究

本文探讨了如何通过知识蒸馏来压缩 MNMT 模型，发现这是一项具有挑战性的任务，并提出了一些设计思考和优化方案。

Apr, 2023

神经机器翻译知识蒸馏理解与改进探究

本文研究神经机器翻译中知识蒸馏的技术，发现知识来源于教师的top-1预测，进一步提出一种名为TIE-KD的方法用于增强知识蒸馏，包含了层次排序损失和迭代蒸馏等措施，实验证明TIE-KD优于基准模型，具有更高的潜力和泛化性能。

May, 2023

知识蒸馏的关键因素剖析

知识蒸馏是一种模型压缩和性能提升的技术，在神经机器翻译领域取得了显著进展。本研究通过深入调查学生模型容量、数据复杂性和解码策略在单词级和序列级蒸馏中的相互作用，验证了有关这些因素对知识蒸馏影响的假设，同时提出了一种新颖的优化蒸馏方法，实现了最先进的翻译性能，推动了神经机器翻译领域的发展。

Dec, 2023

句级别还是词级别？关于知识蒸馏的综合研究

通过改进的混合方法，将知识蒸馏技术应用于神经机器翻译，以在不同的情境中提高模型性能和压缩模型。

Apr, 2024