探索无监督的预训练目标对机器翻译的影响

ACLJun, 2021

探索无监督的预训练目标对机器翻译的影响

Exploring Unsupervised Pretraining Objectives for Machine Translation

Christos Baziotis, Ivan Titov, Alexandra Birch, Barry Haddow

TL;DR本文研究无监督跨语言预训练在神经机器翻译中的应用，通过对编码器输入进行屏蔽或者基于上下文重新排序和替换等不同预训练方法的比较，发现无监督机器翻译对预训练目标的敏感度较高，与有监督机器翻译相比，更需要具有强大跨语言能力的编码器模型。

Abstract

unsupervised cross-lingual pretraining has achieved strong results in neural machine translation (NMT), by drastically reducing the need for large parallel data. Most approaches adapt masked-language modeling (MLM) to sequence-to-sequence architectures, by →

unsupervised cross-lingual pretraining neural machine translation masking alternative objectives pretraining models

发现论文，激发创造

针对无监督神经机器翻译，提升预训练语言模型的词汇能力

本文介绍了一种基于子词嵌入的双语掩码语言模型预训练方法，应用于无监督神经机器翻译和双语词汇归纳任务中均取得了较好的性能表现。

Mar, 2021

简单却令人沮丧的预训练替代方法：掩码语言建模

本文研究了五种基于令牌级分类任务的简单预训练目标作为 MLM 替代品，证明这些方法可以达到与使用 BERT-BASE 结构的 MLM 相当或更好的性能，并且使用较小的模型进行验证。

Sep, 2021

跨语言监督改善大型语言模型预训练

本研究介绍了一种在预训练大型语言模型时将自监督语言建模目标和受监督机器翻译目标混合的策略，并证明了该策略产生了具有更好上下文学习能力的模型。同时，为了解决混合比例的问题，本研究提出了一种简单而有效的策略。

May, 2023

显式跨语言预训练用于无监督机器翻译

本文提出了一种新的跨语言预训练方法，通过融合显式的跨语言训练信号，从交叉语境中获取受益的跨语言信息并使用 CMLM 预训练模型大幅提高了无监督机器翻译的性能.

Aug, 2019

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

跨语言监督提高无监督神经机器翻译

本研究提出了一种跨语言无监督神经机器翻译框架，利用来自高资源语言对的弱监督信号，以提高零资源翻译质量。该框架基于多语言模型，不需要对标准无监督神经机器翻译进行改动，实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。

Apr, 2020

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

Transformer 的结构自监督目标

本文重点研究如何通过使用无监督原始数据来改善自然语言模型的预训练，使其更高效并与下游应用相匹配。在第一部分中，我们介绍了三种替代 BERT 的 Masked Language Modeling（MLM）的预训练目标，分别为 Random Token Substitution（RTS）、Cluster-based Random Token Substitution（C-RTS）和 Swapped Language Modeling（SLM）。第二部分中，我们提出了与下游应用结构对齐的自监督预训练任务，减少了对标记数据的需求，并展示了在 Fact Verification、Answer Sentence Selection 和 Summarization 等任务上的显著性能提升。

Sep, 2023

无监督神经机器翻译的实证研究：NMT 输出、模型行为和句子贡献的分析

无监督神经机器翻译（UNMT）关注于提高无人翻译平行数据的 NMT 结果，但在突出其优势与分析除翻译准确性以外的输出方面，迄今为止还做得很少。我们聚焦于三种非常不同的语言，法语、古吉拉特语和哈萨克语，并使用不同程度的监督来训练双语 NMT 模型，并在高和低资源环境中，测量 NMT 输出的质量，并将生成的序列的词序和语义相似性与源语句和参考句子进行比较。我们还使用分层相关传播来评估源语句和目标语句对结果的贡献，并扩展了先前作品对 UNMT 范式的发现。

Dec, 2023

DICT-MLM：使用双语词典的改进多语种预训练

本文提出 DICT-MLM 方法以促进跨语言表示学习，分析表明该方法在多种涉及 30 多种语言的下游任务中表现出了更好的多语言表示能力。

Oct, 2020