无监督预训练用于序列到序列学习

EMNLPNov, 2016

无监督预训练用于序列到序列学习

Unsupervised Pretraining for Sequence to Sequence Learning

Prajit Ramachandran, Peter J. Liu, Quoc V. Le

TL;DR本文提出了一种通用的无监督学习方法，用于改善序列到序列模型（seq2seq）的准确性；其主要是通过使用两个语言模型的预训练权重对 seq2seq 模型的 encoder 和 decoder 进行初始化，并使用标记数据进行微调，最后将其应用于机器翻译和抽象概述中。研究结果表明，预训练可以提高 seq2seq 模型的泛化性能，进而取得了 WMT 英德翻译任务的最新的最佳 BLEU 分数，其人工评估结果也得到有力佐证。

Abstract

This work presents a general unsupervised learning method to improve the accuracy of sequence to sequence (seq2seq) models. In our method, the weights of the encoder and decoder of a seq2seq model are initialized with the pretrained weights of two language models and then fine-tuned wi

unsupervised learning sequence to sequence models pretraining machine translation abstractive summarization

发现论文，激发创造

半监督序列学习

本文提出两种方法用于使用未标记的数据改善序列学习。第一种方法是预测序列中的下一个元素，第二种方法是使用序列自编码器。通过这两种算法的无监督训练，我们可以训练出更稳定且泛化性能更好的长短时记忆网络，并在诸如 IMDB、DBpedia 和 20 Newsgroups 等文本分类任务中获得强大的性能。

Nov, 2015

通过重新引用源文本进行抽象文档摘要的预训练

该论文提出了三个预训练目标，并基于未标记的文本对 Seq2Seq based abstractive summarization model 进行预训练，从而在有限的监督 summarization data 上改进其性能，这三个目标与 abstractive document summarization task 有密切关联。实验结果表明，这三个目标均能改进模型性能，且仅使用 19GB 的文本进行预训练即可与使用大规模数据集预训练的模型达到可比较的效果。

Apr, 2020

神经机器翻译的序列到序列预训练：理解与改进

本文主要研究了 Seq2Seq 预训练在神经机器翻译上的影响，发现 Seq2Seq 预训练可提高翻译多样性，但由于与 NMT 微调存在差异，限制了翻译质量和模型稳健性，进一步提出了域内预训练和输入适应策略可以缓解这些问题。实验结果显示，我们的方法可以一致地提高 Seq2Seq 预训练的翻译性能和模型稳健性。

Mar, 2022

编码增强的序列到序列预训练模型用于语言理解与生成

本文研究了现有的 seq2seq 预训练模型中存在的问题，提出了一种基于编码器自监督学习的预训练策略 E2S2，并通过在多个自然语言理解和生成任务中的实验证明了其可行性及有效性。

May, 2022

面向低资源语言的数据高效语音合成无监督预训练

本文提出了一种基于无监督预训练的神经文本朗读生成模型，通过学习 Warped Mel-Spectrogram 的重构来优化时序关系，进一步提高数据利用效率，在低资源语言情境下实现了显著的性能提升。

Mar, 2023

序列到序列的预训练与数据增强技术在句子重写中的应用

该文研究了使用数据增强的序列到序列预训练在句子重写方面的应用。在使用增强数据和金标准数据训练序列到序列模型时，我们采用分阶段训练方法。实验结果表明，该方法显著提高了句子重写任务的性能，并在 GEC 和 FST 上达到了最先进的结果。

Sep, 2019

给白板上色：预训练赋予序列到序列模型分层归纳偏置

本文通过使用预训练的 seq2seq 模型，探究其是否能够在句法变换中进行层次化泛化，同时还证明了从未经注释的自然语言文本中可以学习到分层句法信息，_SEQ2SEQ 模型具有句法泛化能力，但需要比人类学习者接收更多的语言数据才能达到该能力_。

Mar, 2022

预训练语言模型表示用于语言生成

本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略，并将其应用于神经机器翻译和抽象摘要。实验证明，加入编码器网络的预训练表示是最有效的，可以在减慢推理速度仅 14％的情况下获得高达 5.3 BLEU 的增益，并且即使有数百万个句对可用时，仍然可以观察到改进。最后，在 CNN / DailyMail 的完整文本版本上，我们达到了最新的研究成果。

Mar, 2019

利用预训练检查点进行序列生成任务

本篇论文展示了预训练模型的高效性，使用 Transformer-based 序列到序列模型，并将其与公开的预训练检查点匹配，取得了机器翻译、文本摘要、句子拆分和句子融合等方面的最新的最新成果。

Jul, 2019

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017