蒸馏数据复杂度如何影响非自回归机器翻译的质量和置信度？

ACLMay, 2021

蒸馏数据复杂度如何影响非自回归机器翻译的质量和置信度？

How Does Distilled Data Complexity Impact the Quality and Confidence of Non-Autoregressive Machine Translation?

Weijia Xu, Shuming Ma, Dongdong Zhang, Marine Carpuat

TL;DR研究表明，非自回归模型在机器翻译中表现良好，但由于其需要从自回归模型中提炼知识，受到了一定的限制。本文针对这个问题进行了研究，通过实验发现，虽然减少词汇多样性和减少重新排序复杂性都有助于 NAR 学习更好的源和目标之间的对齐关系，从而提高翻译质量，但是词汇多样性是提炼增加模型置信度的主要原因，并会对不同的 NAR 模型产生不同的影响。

Abstract

While non-autoregressive (NAR) models are showing great promise for machine translation, their use is limited by their dependence on knowledge distillation from autoregressive models. To address this issue, we seek to understand why →

non-autoregressive models distillation machine translation complexity levenshtein transformer

发现论文，激发创造

非自回归机器翻译中的知识蒸馏理解

本文通过实验发现，知识蒸馏可以降低数据集的复杂度，帮助非自回归机器翻译模型 NART 更好地建模输出的变化，提高翻译质量，并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能，达到了最先进的性能水平。

Nov, 2019

使用单语数据提高非自回归神经机器翻译的性能

利用大规模单语语料，基于知识蒸馏的方式提升非自回归神经机器翻译模型的效果，并成功地在 WMT14 En-De 和 WMT16 En-Ro 新闻翻译任务上验证了模型的性能提升。

May, 2020

帮助弱者使你强大：简单的多任务学习提升非自回归翻译者

提出一种多任务学习框架，加强非自回归神经机器翻译模型的学习信号并改进其准确性。实验证明该方法可以在不增加解码开销的情况下稳定提升多个非自回归基准模型的准确性。

Nov, 2022

了解和改善非自回归翻译中的词汇选择

本文通过知识蒸馏的方式训练非自回归翻译模型，并指出在低频词方面，自回归模型的词汇选择误差会传递给非自回归模型，同时提出了一个额外的 KL 散度项以减少低频词方面的词汇选择误差并通过实验验证了其有效性和普适性。

Dec, 2020

非自回归模型的序列生成研究

该研究通过提出一种分析模型来表征 Non-autoregressive 模型生成不同序列任务的难易程度，并发现知识蒸馏和源 - 目标对齐技术可以帮助提升 Non-autoregressive 模型的准确性，减少目标序列的依赖性。

Apr, 2020

非自回归机器翻译：速度不像看起来那么快

本研究对非自回归模型及自回归模型在机器翻译中的效率进行了探究，并提出了对非自回归模型的进一步实验和评测。

May, 2022

非自回归神经机器翻译的选择性知识蒸馏

本文提出了一种选择性知识蒸馏技术，通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标，并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能，在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明，我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡，取得了出色的性能。进一步的分析表明，只通过 5% 的原始翻译数据，就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。

Mar, 2023

知识蒸馏的关键因素剖析

知识蒸馏是一种模型压缩和性能提升的技术，在神经机器翻译领域取得了显著进展。本研究通过深入调查学生模型容量、数据复杂性和解码策略在单词级和序列级蒸馏中的相互作用，验证了有关这些因素对知识蒸馏影响的假设，同时提出了一种新颖的优化蒸馏方法，实现了最先进的翻译性能，推动了神经机器翻译领域的发展。

Dec, 2023

使用预训练语言模型、嵌入蒸馏和上采样策略改善 CTC 非自回归翻译质量

通过使用 CTC loss 进行微调 PMLM 模型、采用 MASK 插入方案进行上采样、使用嵌入蒸馏方法进一步提高性能，使得非自回归模型获得了更好的翻译质量和加速，并在多个数据集上优于自回归模型

Jun, 2023

神经机器翻译及其扩展中的非自回归生成调查

本文对不自回归生成（NAR）进行了系统的调查，并比较和讨论了不同方面的各种非自回归翻译（NAT）模型，包括数据处理、建模方法、训练标准、解码算法以及受到预训练模型的好处，同时简要回顾了 NAR 模型在机器翻译以外的其他应用，并讨论了未来探索的潜在方向。

Apr, 2022