利用预训练检查点进行序列生成任务

ACLJul, 2019

利用预训练检查点进行序列生成任务

Leveraging Pre-trained Checkpoints for Sequence Generation Tasks

Sascha Rothe, Shashi Narayan, Aliaksei Severyn

TL;DR本篇论文展示了预训练模型的高效性，使用 Transformer-based 序列到序列模型，并将其与公开的预训练检查点匹配，取得了机器翻译、文本摘要、句子拆分和句子融合等方面的最新的最新成果。

Abstract

unsupervised pre-training of large neural models has recently revolutionized Natural Language Processing. By warm-starting from the publicly released checkpoints, NLP practitioners have pushed the state-of-the-ar

unsupervised pre-training neural models sequence generation transformer-based pre-trained checkpoints

发现论文，激发创造

探索预训练检查点在文本生成音乐任务中的功效

本研究首次尝试使用 BERT、GPT-2 和 BART 等公开可用的预训练模型生成完整且语义连贯的音乐曲谱，实验结果表明使用预训练检查点在文本到音乐生成任务中具有显著改进。

Nov, 2022

无监督预训练用于序列到序列学习

本文提出了一种通用的无监督学习方法，用于改善序列到序列模型（seq2seq）的准确性；其主要是通过使用两个语言模型的预训练权重对 seq2seq 模型的 encoder 和 decoder 进行初始化，并使用标记数据进行微调，最后将其应用于机器翻译和抽象概述中。研究结果表明，预训练可以提高 seq2seq 模型的泛化性能，进而取得了 WMT 英德翻译任务的最新的最佳 BLEU 分数，其人工评估结果也得到有力佐证。

Nov, 2016

使用预训练 Transformer 作为通用计算引擎

本研究探究了预先在自然语言处理上训练的 transformer 模型是否可以在最小化调整下进行泛化以适用于其他模式，并研究其在数字计算、视觉和蛋白质折叠预测等序列分类任务上的优化性能。结果表明，预训练模型对非语言下游任务的性能和计算效率都有积极作用。

Mar, 2021

双向语言模型的半监督序列标注

本文探讨了一种半监督的方法，通过添加双向语言模型的预训练上下文嵌入到 NLP 系统中用于序列标注任务，相比其他转移学习或添加标记数据和任务特定词典的方法，在命名实体识别和块分割等任务上实现了最先进的结果。

Apr, 2017

基于预训练的自然语言生成用于文本摘要

本文提出了一种基于预训练的编码器 - 解码器框架，使用 BERT 编码输入序列来生成输出序列，采用 Transformer-based 解码器生成草稿输出序列，并将其与原始输入序列结合使用，使用 BERT 生成的草稿表示来预测遮罩位置的优化单词，进而在文本摘要任务上实现了最新的技术水平。

Feb, 2019

利用预训练模型进行故障分析三元组生成

本文研究了利用 Transformer 模型的注意机制为下游任务生成半导体行业中的故障分析三元组（FATs）。发现使用 1.5B 参数进行训练的 GPT2 模型在 ROUGE 上的表现显著优于 BERT、BART 和 GPT3 等其他 Transformer 模型，在人类评估和结构化 FAT 数据方面引入了 Levenshstein 顺序评估度量（LESE）。

Oct, 2022

预训练语言模型表示用于语言生成

本文研究了将预训练的语言模型表征集成到序列到序列模型中的不同策略，并将其应用于神经机器翻译和抽象摘要。实验证明，加入编码器网络的预训练表示是最有效的，可以在减慢推理速度仅 14％的情况下获得高达 5.3 BLEU 的增益，并且即使有数百万个句对可用时，仍然可以观察到改进。最后，在 CNN / DailyMail 的完整文本版本上，我们达到了最新的研究成果。

Mar, 2019

使用预训练 Transformer 模型进行数据增强

本文研究了不同类型的基于 Transformer 的预训练模型（如 GPT-2，BERT 和 BART），并探索了在数据增强方面，如何在文本序列之前添加类标签提供了一种简单而有效的条件方法，预先训练的 Seq2Seq 模型在低资源环境下胜过了其他数据增强方法，在数据分布和类标签信息保存方面也进行了探讨。

Mar, 2020

预训练语言模型用于电力时间序列预测

通过使用预先在自然语言或图像数据上进行训练的 Transformer 模型，并通过最小修改进行微调，我们在时序预测任务上评估了 Frozen Pretrained Transformer (FPT) 的效果，并发现其性能在跨模态时序预测任务中可以与同模态微调相媲美甚至处于最前沿状态。

Feb, 2023

使用预训练的编码器 - 解码器模型加强语法错误修正的基线

本研究探索了使用双向和自回归转换器 (BART) 作为通用预训练编码器 - 解码器模型的实用性，以解决语法错误纠正问题中需要长时间预训练的问题，并发现单语和多语言 BART 模型在语法错误纠正方面取得了很高的表现。

May, 2020