序列级知识蒸馏
本文通过实验发现,知识蒸馏可以降低数据集的复杂度,帮助非自回归机器翻译模型 NART 更好地建模输出的变化,提高翻译质量,并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能,达到了最先进的性能水平。
Nov, 2019
本研究提出一种新颖的神经机器翻译知识蒸馏技术,通过层级监督,将大型准确的老师网络的知识注入到小巧的学生网络中,以适应边缘设备上内存约束的低资源环境。实验表明,采用该技术,学生网络的参数数量减少了50%,仍能提供与老师网络相媲美的翻译结果。针对葡萄牙语-英语、土耳其语-英语和英语-德语方向的翻译实验结果也得到了验证。
Oct, 2020
该研究使用新方法对神经机器翻译及知识蒸馏的训练样本进行分析,提出了批级和全局级别的样本选择策略来优化知识蒸馏,实验结果表明,该方法在 WMT'14 英语->德语和 WMT'19 中文->英语机器翻译任务中提高了机器翻译的 BLEU 得分。
May, 2021
本文提出一种改进机器翻译模型的方法,即将 NN search 前置,并通过最近邻知识蒸馏(NN-KD)训练基本 NMT 模型直接学习NN知识,可以更好地解决机器翻译中的过度纠正问题,并在保持训练和解码速度不变的情况下,实现了比NN-MT等现有方法更好的结果。
May, 2022
研究多语言神经机器翻译中的灾难性遗忘问题,并提出基于知识蒸馏的生命周期学习方法,以应对其面临的问题。实验结果显示,该方法能够更好地巩固以前的知识并显著减轻问题。
Dec, 2022
本文提出了一种选择性知识蒸馏技术,通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标,并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能,在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明,我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡,取得了出色的性能。进一步的分析表明,只通过 5% 的原始翻译数据,就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。
Mar, 2023
本文研究神经机器翻译中知识蒸馏的技术,发现知识来源于教师的top-1预测,进一步提出一种名为TIE-KD的方法用于增强知识蒸馏,包含了层次排序损失和迭代蒸馏等措施,实验证明TIE-KD优于基准模型,具有更高的潜力和泛化性能。
May, 2023
知识蒸馏是一种模型压缩和性能提升的技术,在神经机器翻译领域取得了显著进展。本研究通过深入调查学生模型容量、数据复杂性和解码策略在单词级和序列级蒸馏中的相互作用,验证了有关这些因素对知识蒸馏影响的假设,同时提出了一种新颖的优化蒸馏方法,实现了最先进的翻译性能,推动了神经机器翻译领域的发展。
Dec, 2023