神经机器翻译的通用条件掩码语言预训练

ACLMar, 2022

神经机器翻译的通用条件掩码语言预训练

Universal Conditional Masked Language Pre-training for Neural Machine Translation

Pengfei Li, Liangyou Li, Meng Zhang, Minghao Wu, Qun Liu

TL;DR本文介绍了一种 CeMAT 方法，即一种在双语和单语语料库上进行预训练的条件掩码语言模型，其中包括双向解码器，通过该方法可以在低资源及高资源语言下分别提高 14.4 BLEU 和 7.9 BLEU 及能显著提高 Autoregressive NMT 的性能。此外，本文还首次在 NMT 任务上使用了统一预训练模型，并提供相关数据和模型。

Abstract

Pre-trained sequence-to-sequence models have significantly improved Neural Machine Translation (nmt). Different from prior works where pre-trained models usually adopt an unidirectional decoder, this paper demons

pre-trained models nmt bidirectional decoder cemat autoregressive nmt

发现论文，激发创造

Mask-Predict: 条件掩码语言模型的并行解码

本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法，并通过对多个数据集的实验验证，证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型，并且接近于左到右的变换器模型。

Apr, 2019

AMOM: 条件掩码语言模型的自适应掩码

本文介绍了一种简单而有效的自适应遮盖策略，用于增强解码器的细化能力和简化编码器优化，证明该方法在多任务序列生成中超越了强大的 CMLM 模型，在机器翻译任务中获得了最先进的性能，并在至少 2.2 倍的加速下比 AR Transformer 实现了更好的性能。

Mar, 2023

针对无监督神经机器翻译，提升预训练语言模型的词汇能力

本文介绍了一种基于子词嵌入的双语掩码语言模型预训练方法，应用于无监督神经机器翻译和双语词汇归纳任务中均取得了较好的性能表现。

Mar, 2021

使用预训练语言模型、嵌入蒸馏和上采样策略改善 CTC 非自回归翻译质量

通过使用 CTC loss 进行微调 PMLM 模型、采用 MASK 插入方案进行上采样、使用嵌入蒸馏方法进一步提高性能，使得非自回归模型获得了更好的翻译质量和加速，并在多个数据集上优于自回归模型

Jun, 2023

多语言去噪预训练用于神经机器翻译

本文的研究表明，多语言去噪预训练在各种机器翻译任务中都有显著的性能提升，通过使用 BART 目标在许多语言的大规模单语语料库上进行序列到序列去噪自动编码器的预训练，我们提出了 mBART。mBART 是预训练完整序列到序列模型的首个方法之一，它能够直接进行监督（包括句子级和文档级）和无监督机器翻译的微调，而无需特定于任务的修改，并且在除最高资源设置外的所有设置中都能实现性能提升，包括低资源机器翻译和许多文档级和无监督模型的 12 BLEU 点和 5 BLEU 点以上。

Jan, 2020

使用自审机制将序列信息注入条件掩码翻译模型

提出了一种自我审核机制来为条件掩蔽翻译模型注入顺序信息，以改进其翻译精度，而且通过知识蒸馏，该模型甚至可以超过传统的从左到右的 Transformer 模型，同时加速解码。

Oct, 2020

利用 BERT 优化神经机器翻译

本文介绍了一种有力的方法，将事先训练好的语言模型（LMs）与神经机器翻译（NMT）相结合，以解决当前 LM 微调应用于资源丰富任务时巨大遗忘的难题，并在机器翻译任务中取得了优越的成果。

Aug, 2019

MASS: 面向语言生成的遮掩序列到序列预训练

该论文介绍了 MASS 作为一种在 encoder-decoder 架构下的自然语言生成前预训练方法，通过在随机遮掩的句子中构建代表性提取和语言建模能力，再在文本生成、翻译及会话生成等多个语言生成任务中进行进一步微调，以获得比其他无预训练模型和其他预训练方法更加出色的表现。

May, 2019

UniLMv2：伪掩码统一语言模型预训练

本文提出了一种称为 Pseudo-Masked Language Model（PMLM）的新训练程序，用于预训练统一的语言模型以处理自动编码和部分自回归语言建模任务，并通过自我注意力掩码和位置嵌入来避免冗余计算，在自然语言理解和生成任务方面取得了新的最先进的结果。

Feb, 2020

显式跨语言预训练用于无监督机器翻译

本文提出了一种新的跨语言预训练方法，通过融合显式的跨语言训练信号，从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.

Aug, 2019