神经机器翻译的序列到序列预训练：理解与改进

ACLMar, 2022

神经机器翻译的序列到序列预训练：理解与改进

Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation

Wenxuan Wang, Wenxiang Jiao, Yongchang Hao, Xing Wang, Shuming Shi...

TL;DR本文主要研究了 Seq2Seq 预训练在神经机器翻译上的影响，发现 Seq2Seq 预训练可提高翻译多样性，但由于与 NMT 微调存在差异，限制了翻译质量和模型稳健性，进一步提出了域内预训练和输入适应策略可以缓解这些问题。实验结果显示，我们的方法可以一致地提高 Seq2Seq 预训练的翻译性能和模型稳健性。

Abstract

In this paper, we present a substantial step in better understanding the SOTA sequence-to-sequence (Seq2Seq) pretraining for neural machine translation~(NMT). We focus on studying the impact of the jointly pretrained decoder, which is the main difference between →

seq2seq pretraining neural machine translation decoder domain discrepancy model robustness

发现论文，激发创造

无监督预训练用于序列到序列学习

本文提出了一种通用的无监督学习方法，用于改善序列到序列模型（seq2seq）的准确性；其主要是通过使用两个语言模型的预训练权重对 seq2seq 模型的 encoder 和 decoder 进行初始化，并使用标记数据进行微调，最后将其应用于机器翻译和抽象概述中。研究结果表明，预训练可以提高 seq2seq 模型的泛化性能，进而取得了 WMT 英德翻译任务的最新的最佳 BLEU 分数，其人工评估结果也得到有力佐证。

Nov, 2016

编码增强的序列到序列预训练模型用于语言理解与生成

本文研究了现有的 seq2seq 预训练模型中存在的问题，提出了一种基于编码器自监督学习的预训练策略 E2S2，并通过在多个自然语言理解和生成任务中的实验证明了其可行性及有效性。

May, 2022

逐步翻译：通过中间序列提高神经机器翻译的领域鲁棒性

本文提出了利用中间信号的方法来改善神经机器翻译 (NMT) 的性能，通过引入特定的中间序列可以降低域内和域外的干扰，进而增强 NMT 的鲁棒性和泛化性能，特别是在低资源情况下效果显著。

May, 2023

给白板上色：预训练赋予序列到序列模型分层归纳偏置

本文通过使用预训练的 seq2seq 模型，探究其是否能够在句法变换中进行层次化泛化，同时还证明了从未经注释的自然语言文本中可以学习到分层句法信息，_SEQ2SEQ 模型具有句法泛化能力，但需要比人类学习者接收更多的语言数据才能达到该能力_。

Mar, 2022

探索无监督的预训练目标对机器翻译的影响

本文研究无监督跨语言预训练在神经机器翻译中的应用，通过对编码器输入进行屏蔽或者基于上下文重新排序和替换等不同预训练方法的比较，发现无监督机器翻译对预训练目标的敏感度较高，与有监督机器翻译相比，更需要具有强大跨语言能力的编码器模型。

Jun, 2021

双向训练优化神经机器翻译

通过双向的预训练策略，将神经机器翻译模型从'src -> tgt' 朝向'src + tgt -> tgt + src' 方向进行更新，成功地提升了神经机器翻译在 15 项任务上的表现，具有更好的双语对齐。

Sep, 2021

同时机器翻译的展望

该研究提出了一种新方法，通过课程学习以逐步减少可用的源信息，从而实现从序列到序列训练到前缀到前缀训练的过渡，以增强同步机器翻译模型的翻译能力。实验证明，该方法优于强基准模型。

Sep, 2023

主题感知神经机器翻译引导对齐训练

本文提出了一种有效的方法来偏置序列到序列神经机器翻译模型（NMT）的注意机制，使其趋向于研究过的词对齐模型。我们展示了我们的新型引导对齐训练方法如何在真实生活的电商文本翻译中提高了翻译质量，克服了许多未知单词和大型类型 / 令牌比。我们还表明，与输入文本相关的元数据（例如主题或类别信息）作为网络解码器部分的附加信号可显着提高翻译质量。有了这两个新功能，NMT 系统在一个产品标题集上的 BLEU 分数从 18.6 提高到 21.3％。通过将通用领域 NMT 系统进行领域适应也可获得更大的机器翻译质量提升。这个开发的 NMT 系统在 IWSLT 语音翻译任务中也表现良好，其中四个变体系统的集合比基线的基于短语的系统的 BLEU 分数提高了 2.1％。

Jul, 2016

利用序列到序列预训练改进 AMR 解析

本文论述了使用 Seq2Seq 预训练方法和多任务细调方法，建立单一和联合预训练模型，并取得最先进的性能，以提高抽象意义表示 - AMR - 解析的数据集规模限制问题。

Oct, 2020

通过重新引用源文本进行抽象文档摘要的预训练

该论文提出了三个预训练目标，并基于未标记的文本对 Seq2Seq based abstractive summarization model 进行预训练，从而在有限的监督 summarization data 上改进其性能，这三个目标与 abstractive document summarization task 有密切关联。实验结果表明，这三个目标均能改进模型性能，且仅使用 19GB 的文本进行预训练即可与使用大规模数据集预训练的模型达到可比较的效果。

Apr, 2020