了解和改善非自回归翻译中的词汇选择

ICLRDec, 2020

了解和改善非自回归翻译中的词汇选择

Understanding and Improving Lexical Choice in Non-Autoregressive Translation

Liang Ding, Longyue Wang, Xuebo Liu, Derek F. Wong, Dacheng Tao...

TL;DR本文通过知识蒸馏的方式训练非自回归翻译模型，并指出在低频词方面，自回归模型的词汇选择误差会传递给非自回归模型，同时提出了一个额外的 KL 散度项以减少低频词方面的词汇选择误差并通过实验验证了其有效性和普适性。

Abstract

knowledge distillation (KD) is essential for training non-autoregressive translation (NAT) models by reducing the complexity of the raw data with an autoregressive teacher model. In this study, we empirically show that as a side effect of this training, the →

knowledge distillation non-autoregressive translation lexical choice errors kullback-leibler divergence low-frequency words

发现论文，激发创造

利用平行数据使低频词复苏 —— 非自回归翻译的最大化利用

通过知识蒸馏可以构建合成数据用于训练非自回归翻译模型，但由于合成数据与原始数据之间的低频词差异，容易导致低频词预测错误，在此基础上，我们通过使用逆向蒸馏等方法改善训练策略，提高非自回归翻译模型的翻译性能和低频词预测准确率。

Jun, 2021

非自回归神经机器翻译的选择性知识蒸馏

本文提出了一种选择性知识蒸馏技术，通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标，并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能，在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明，我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡，取得了出色的性能。进一步的分析表明，只通过 5% 的原始翻译数据，就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。

Mar, 2023

非自回归机器翻译中的知识蒸馏理解

本文通过实验发现，知识蒸馏可以降低数据集的复杂度，帮助非自回归机器翻译模型 NART 更好地建模输出的变化，提高翻译质量，并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能，达到了最先进的性能水平。

Nov, 2019

蒸馏数据复杂度如何影响非自回归机器翻译的质量和置信度？

研究表明，非自回归模型在机器翻译中表现良好，但由于其需要从自回归模型中提炼知识，受到了一定的限制。本文针对这个问题进行了研究，通过实验发现，虽然减少词汇多样性和减少重新排序复杂性都有助于 NAR 学习更好的源和目标之间的对齐关系，从而提高翻译质量，但是词汇多样性是提炼增加模型置信度的主要原因，并会对不同的 NAR 模型产生不同的影响。

May, 2021

邻居不是陌生人：在低频词汇限制下改进非自回归翻译

该研究探讨了非自回归翻译方法中因最近度高而导致的限制条件处理不良的问题，并提出一种基于 source-side context 的插件算法，即 Aligned Constrained Training，来提高翻译品质，尤其针对一些不常见的限制条件。

Apr, 2022

利用对比学习优化非自回归变换器

本文提出了一种基于 DA-Transformer 模型和从模型分布中采点的对比约束的非自回归 Transformer 模型，通过这种方式减轻模态学习的难度，取得了在机器翻译，文本摘要和改写等多个基准数据集中显著的最新非自回归 Transformer 模型的性能。

May, 2023

神经语言模型的一致性蒸馏架构

本研究探讨了一种 Knowledge Distillation 的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能，同时在 Plagiarism Detection 方面也有了更好的表现。

Jan, 2023

自回归语言模型的知识蒸馏再探讨

通过分析发现大型语言模型在教学学生模型时会导致性能下降，设计了一种自适应教学方法（ATKD）来改进知识蒸馏，并通过大量实验验证其在各种模型类型和规模上均能显著提高性能（平均得分增加至多 + 3.04%）。更重要的是，ATKD 能有效改善学生模型的泛化能力。

Feb, 2024

非自回归神经机器翻译

本文提出一种新的神经机器翻译模型，通过避免自回归的特性，以并行方式生成输出，进而做到了比先前方法更低的延迟时间。通过知识蒸馏，潜在变量，以及多样本策略梯度微调等技术手段，几乎没有损失性能，达到了先进的翻译效果。

Nov, 2017

使用预训练语言模型、嵌入蒸馏和上采样策略改善 CTC 非自回归翻译质量

通过使用 CTC loss 进行微调 PMLM 模型、采用 MASK 插入方案进行上采样、使用嵌入蒸馏方法进一步提高性能，使得非自回归模型获得了更好的翻译质量和加速，并在多个数据集上优于自回归模型

Jun, 2023