了解和改善非自回归翻译中的词汇选择
通过知识蒸馏可以构建合成数据用于训练非自回归翻译模型,但由于合成数据与原始数据之间的低频词差异,容易导致低频词预测错误,在此基础上,我们通过使用逆向蒸馏等方法改善训练策略,提高非自回归翻译模型的翻译性能和低频词预测准确率。
Jun, 2021
本文提出了一种选择性知识蒸馏技术,通过 NAT 评估器选择高质量且易于学习的 NAT 友好目标,并引入简单而有效的渐进式蒸馏方法来提高 NAT 性能,在多个 WMT 语言方向和多个代表性 NAT 模型上进行实验。结果表明,我们的方法可以实现训练数据的质量和复杂性之间的灵活权衡,取得了出色的性能。进一步的分析表明,只通过 5% 的原始翻译数据,就可以使 NAT 在 BLEU 值上比原始数据训练的对手高出约 2.4 BLEU。
Mar, 2023
本文通过实验发现,知识蒸馏可以降低数据集的复杂度,帮助非自回归机器翻译模型 NART 更好地建模输出的变化,提高翻译质量,并提出多种方法来调整数据集复杂度以改进 NAT 模型的性能,达到了最先进的性能水平。
Nov, 2019
研究表明,非自回归模型在机器翻译中表现良好,但由于其需要从自回归模型中提炼知识,受到了一定的限制。本文针对这个问题进行了研究,通过实验发现,虽然减少词汇多样性和减少重新排序复杂性都有助于 NAR 学习更好的源和目标之间的对齐关系,从而提高翻译质量,但是词汇多样性是提炼增加模型置信度的主要原因,并会对不同的 NAR 模型产生不同的影响。
May, 2021
该研究探讨了非自回归翻译方法中因最近度高而导致的限制条件处理不良的问题,并提出一种基于 source-side context 的插件算法,即 Aligned Constrained Training,来提高翻译品质,尤其针对一些不常见的限制条件。
Apr, 2022
本文提出了一种基于 DA-Transformer 模型和从模型分布中采点的对比约束的非自回归 Transformer 模型,通过这种方式减轻模态学习的难度,取得了在机器翻译,文本摘要和改写等多个基准数据集中显著的最新非自回归 Transformer 模型的性能。
May, 2023
本研究探讨了一种 Knowledge Distillation 的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能,同时在 Plagiarism Detection 方面也有了更好的表现。
Jan, 2023
通过分析发现大型语言模型在教学学生模型时会导致性能下降,设计了一种自适应教学方法(ATKD)来改进知识蒸馏,并通过大量实验验证其在各种模型类型和规模上均能显著提高性能(平均得分增加至多 + 3.04%)。更重要的是,ATKD 能有效改善学生模型的泛化能力。
Feb, 2024
本文提出一种新的神经机器翻译模型,通过避免自回归的特性,以并行方式生成输出,进而做到了比先前方法更低的延迟时间。通过知识蒸馏,潜在变量,以及多样本策略梯度微调等技术手段,几乎没有损失性能,达到了先进的翻译效果。
Nov, 2017
通过使用 CTC loss 进行微调 PMLM 模型、采用 MASK 插入方案进行上采样、使用嵌入蒸馏方法进一步提高性能,使得非自回归模型获得了更好的翻译质量和加速,并在多个数据集上优于自回归模型
Jun, 2023